AnthropicがバイオインフォマティクスにおけるAI能力を測定するベンチマーク「BioMysteryBench」を発表しました。99問の問題で構成され、人間が解けた76問に対しClaude Mythosは73問を解答、人間が解けなかった23問のうち19問では約30%の問題を解決したとのことです。
AIモデル「Claude」を開発するAnthropicが、バイオインフォマティクス分野におけるAIの能力を測定するベンチマーク「BioMysteryBench」を発表しました。科学分野におけるAIの性能をこれまで以上に効果的に測定できるものとして紹介されています。
Anthropicは「医師や弁護士になるには試験がありますが、科学者になるための試験は存在しません。科学分野のベンチマークではソフトウェアにおける『SWE-bench』ほど標準的なものはまだ存在していません。これは科学研究、特に生物学がベンチマークによる評価を非常に難しくするいくつかの特性を持っているためです」と指摘しています。
生物学では数学などと異なり「正しいやり方」が複数存在することが多く、個々の研究判断が非常に主観的で、ノイズの多いデータセットではまったく異なる結論につながる可能性があり、人間がまだ答えを出せていない生物学的問いが多く存在するといった課題が挙げられていました。効果的にAIの性能を評価できるベンチマークが必要とされていたのです。
BioMysteryBenchは、現実世界の複雑なバイオインフォマティクスデータを使用しつつ、そのデータに内在する複雑さや課題が評価の質を損なわないようにしたベンチマークです。研究の自由度と創造性が許容されており、AIは多様な戦略を選択して問題を解くことが可能です。さらに、評価はモデルがたどった経路ではなく最終的な回答に基づいて行われ、正しい生物学的結論に到達すれば高く評価されるため、モデルの結論が科学者の結論と一致するかどうかを判断しつつ、モデルが創造的な解決策を考案できるかどうかなど複数の項目を横断的に検証することができるとされています。
BioMysteryBenchは、バイオインフォマティクスのさまざまな分野からの99個の問題で構成されており、中には客観的な正解が存在するにもかかわらず、人間が自力で解決するのが困難または不可能な問題がいくつか含まれています。
Anthropicは各問題について、最大5人の専門家に回答してもらいました。少なくとも1人の人間が正解した場合、その問題は人間が解けると見なされました。99問中、人間が解答できたのは76問でした。
Claudeは人間の戦略を模倣することもあれば、まったく異なるアプローチを取ることもありました。一例では人間の専門家がアルゴリズムやデータベースを用いてデータセットの特性を特定・注釈付けしていたのに対し、Claudeは特定のパターンや配列を直感的に認識していたこともあったそうです。Anthropicは「『直感』は従来の生物学の機械学習モデルでは構築が困難でしたが、大規模言語モデルはこのようなパターンを前例のない規模で発見できる可能性があります」と考察しています。
残りの23問は人間が解けない問題でした。これは、問題が不適切または破損している、問題が本質的に解決不能である、または理論的には解けるが人間は必要な知識を持っていないといういずれかを意味します。
Anthropicが不適切または破損している問題を省く19問を各モデルに解かせたところ、平均5回の試行でClaude Mythosがもっとも高い正答率を示しました。
Claude Opus 4.6の戦略を分析したところ、2つの主要な方法を採っていたことが明らかになります。1つはAI特有のもので、AIが持つ膨大な知識を活用して解析を行うというものでした。人間であればメタアナリシスを実行したり複数のデータベースをつなぎ合わせたりする必要がありますが、Claude Opus 4.6はそのデータ構造を駆使してリアルタイムの解析を行っていました。
もう1つは、複数の手法を重ね合わせ、異なる証拠の系統を組み合わせて結論に到達するというものでした。これは人間がしばしば行う手法でもあります。
事前知識がClaudeにとって圧倒的に有利に働く一方で、人間が解ける問題群の中では逆に弱点となることも観察されました。Claude Opus 4.6は、答えに確信が持てない場合、簡単な問題でもしばしば複数の異なる方法で問題を解こうとし、複数のアプローチが収束する答えを選択して間違えてしまったそうです。
BioMysteryBenchには他の多くのベンチマークと同様に「人間もAIも解けていないタスクについて、それが不可能なのか、単に非常に難しいだけなのかを確信することはできない」という限界があります。
Anthropicは「BioMysteryBenchは科学的能力の有望なベンチマークです。最新世代のClaudeは、人間が解ける問題の大半を安定して解決し、人間にとって解決困難な問題では専門家を上回っています。モデルは世代ごとに改善しており、AIの科学分野への応用が進展していることが示されています」としています。
