UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Labの研究により、AIエージェント向けの技能(スキル)はベンチマークテストでは効果的に見えるが、現実的な条件では大幅に性能が低下することが判明した。34,000個の実世界スキルでのテストでは、厳しいシナリオではスキルなしの基準とほぼ同等の結果に留まった。
UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Labの研究者による新しい研究が、厳しい結論を提示している。技能の効果は「脆弱」であり、テスト条件がより現実的になると劇的に縮小するということだ。最も要求の厳しいシナリオでは、結果はスキルなしの基準をほぼ上回るだけとなる。
技能は、ワークフロー、API使用パターン、ベストプラクティスといったドメイン固有の知識をコード化した構造化テキストファイルである。エージェント型AI(agentic AI)システムは、タスク処理中にこれらのファイルを取得し、記述された手順を適用できる。重要な問題は、エージェント自身がそれらの技能を見つけて適用しなければならない場合、技能がどの程度役立つかということである。
Anthropicは2025年10月にClaudeコード向けのモジュール式システムとして技能を初めて導入した。そこではエージェントが与えられたタスクに必要な特殊な指示を自動的に判断する。OpenAIのCodexやさまざまなオープンソースプロジェクトなど、他のプラットフォームも急速にこのコンセプトを取り入れた。
AIエージェントはいわゆる「技能」を通じて専門知識を活用することになっている。34,000個の実世界の技能をテストした研究では、現実的な条件ではこれらの改善がほぼ役に立たず、より弱いモデルではむしろ性能が低下することが示されている。
研究者によれば、問題は技能がこれまでどのようにテストされてきたかにある。既存のベンチマーク「SKILLSBENCH」は、エージェントに厳選されたタスク固有の技能を直接提供している。本質的には、タスクを段階的に説明している。
研究の一例でこれは明確になる。あるタスクではUSGS(アメリカ地質調査所)の測定所での洪水日を特定する必要がある。提供された3つの技能には、水位データをダウンロードするための正確なAPI、洪水閾値の特定のURL、洪水日を特定するための既製のコードスニペットが含まれている。「これらの技能を組み合わせると、ほぼそのままタスクの正確な解決ガイドを示している」と研究者は述べている。
しかし現実の世界では、エージェントは既製の技能を得られず、適切な技能が存在する保証もない。大規模でノイズの多い収集データから自分で掘り下げ、汎用技能を特定のタスクに適応させる必要がある。
34,000個の実技能を試験
研究チームは、オープンソースリポジトリから34,198個の実技能を集め、寛容なライセンス(MITおよびApache 2.0)でフィルタリングし、重複を排除した。技能は集約プラットフォームskillhub.clubおよびskills.shから取得され、ウェブ開発からデータエンジニアリング、科学計算まで様々な分野をカバーしている。
そこから、研究チームは6つのプログレッシブにより現実的なシナリオをテストした。タスク固有の技能を直接提供するところから始まり、より厳しい条件へと進んでいった。
