速 報2026.04.30 13:30
Anthropicが開発した新しいベンチマーク「BioMysteryBench」により、AIモデルClaudeが生物情報学の実践的課題を解くことができることを示した。従来のベンチマークの限界を補うため、実データに基づく99の専門的な問題を用意し、ツールやデータベースへのアクセスを与えて評価している。
生物学研究においてAIモデルの実際の性能を測定することは難しい。Anthropicによれば、既存のベンチマークにはそれぞれ盲点がある。知識テストのようなMMLUなどでは、実務的な問題解決能力を適切に評価できないという課題がある。
そのためAnthropicはBioMysteryBenchを開発した。複数の生物情報学領域にまたがる99の問題で構成され、専門家によって作成され、実際のノイズを含むデータセットに基づいている。重要な設計上の特徴として、回答が科学的な理解から導き出されるのではなく、実際の分析結果に基づいている点が挙げられる。
典型的なタスクには、単一細胞RNAデータセットがどの器官由来かを特定することや、実験サンプルでどの遺伝子がノックアウト(遺伝子破壊)されたかを特定することなどが含まれる。Claudeは生物情報学ツールを搭載されたコンテナ、NCBIやEnsemblなどのデータベースへのアクセス、分析方法を自由に選択できる完全な自由度を得る。最終的な回答のみがスコア化され、そこに至るプロセスは評価の対象にならない。
