Google DeepMindが開発した「AI co-clinician」は、盲検比較テストでOpenAIのGPT-5.4を上回る性能を示しました。しかし、140以上の診療品質項目を評価した総合試験では、経験豊富な医師には及ばないことが明らかになりました。
Google DeepMindは患者の治療を支援するための「AI co-clinician」を開発しています。このシステムは医師が臨床的な権限と監督を保ちながら、AIエージェントが治療をサポートする「三者による医療(triadic care)」という概念で構築されています。医療チームの一員として患者を支援し、臨床医の監督下で機能することが目的です。
臨床医の視点からシステムを評価するため、研究チームはNOHARM枠組みを調整して学術医師と協力しました。この枠組みでは、医療行為による誤り(errors of commission)と医療行為の不作為による誤り(errors of omission)の2種類の過誤をチェックしています。
盲検比較を98の現実的なケースを用いて実施した結果、AI co-clinicianはGPT-5.4-thinking-with-searchを上回りました。医薬品に関する質問ではさらに大きなリードを示しています。RxQAベンチマークは2カ国の全国医薬品辞典から抽出した、有効成分、相互作用、用量に関する600の質問で構成されており、薬剤師によって検証されています。
AI co-clinicianは73.3%のスコアを獲得し、OpenAIのモデルの72.7%をわずかに上回りました。複数選択ではなく医師が実際に情報を検索する方法である自由形式の質問では、差はさらに広がりました。この場合、AI co-clinicianは95.0%の品質スコアを達成し、OpenAIのモデルの90.9%を上回りました。
テキストベースのサポートを超えて、Google DeepMindはAI co-clinicianが遠隔医療向けのリアルタイム音声・動画にどのように対応するかをテストしています。ハーバードとスタンフォードの医師と協力し、20のシミュレーション臨床シナリオ、患者役を演じる10人の医師、合計120の仮想遠隔医療診療を対象とした無作為化研究を実施しました。
AI co-clinicianはテキストのみのシステムでは対応できない機能を示しました。患者の吸入器の使用技術を修正し、肩の検査を通じてローテーターカフ損傷を特定するよう患者に指導しました。
患者向けの会話では、AI co-clinicianはデュアルエージェント設定で動作します。「Planner」モジュールが会話を監視して、「Talker」エージェントが安全な臨床範囲内にとどまることを確保しています。医師がシステムを使用する場合、別の機能が働きます。
診療品質は7つの領域にわたって140以上の側面で評価されました。トリアージ、問診、臨床推論、コミュニケーションと相談、治療段階、警告兆候の発見、身体検査が含まれています。この結果から、AIが医療の完全な自動化に近づいていることを期待する人々にとって、現実は厳しいものとなっています。経験豊富な医師は依然として最高のパフォーマンスを発揮しており、AIはそれに及ばないのです。
