ハーバード医科大学とベスイスラエル・ディーコネス医療センターの研究チームが、OpenAIの大規模言語モデルの医療現場での性能を検証した。応急外来の実際の患者76名を対象とした研究で、o1モデルは2人の内科医の診断と比べて、同等かそれ以上の精度を示した。
新たな研究では、大規模言語モデル(LLM)がさまざまな医療環境、特に実際の応急外来の事例においてどのような性能を発揮するかを調査している。少なくとも1つのモデルが医師よりも正確な診断を提供しているようだ。
この研究は今週Science誌に掲載され、ハーバード医科大学とベスイスラエル・ディーコネス医療センターの医師とコンピュータ科学者のチームが主導している。研究者らは、OpenAIのモデルが人間の医師とどのように比較されるかを測定するため、さまざまな実験を実施した。
ある実験では、ベスイスラエル応急外来を訪れた76人の患者を対象に、2人の内科医による診断をOpenAIのo1および4oモデルによって生成された診断と比較した。これらの診断は、どの診断が人間からのものであり、どれがAIからのものであるかを知らされていない2人の他の内科医によって評価された。
「各診断上の接点で、o1は2人の内科医および4oと比べて、同等かそれ以上の性能を示した」と研究は述べており、その差は「特に」明らかであったと付け加えている。
ハーバード医科大学の情報によれば、o1モデルは「正確またはそれに非常に近い診断」をトリアージケースの67%で提供したのに対し、一方の医師は55%の時間で正確またはそれに近い診断を得られ、もう一方は50%の確率で命中した。
「我々はAIモデルをほぼすべてのベンチマークに対してテストしたが、それは両方の医師を上回った」と研究者は述べている。
明確にしておくべき点として、この研究はAIが応急外来での実際の生死に関わる決定を下す準備ができていることを主張していない。代わりに、その発見は「緊急の必要性」があることを示している。
研究者らはまた、モデルがどのように性能を発揮するかについてのみ研究したことを指摘した。
この研究の筆頭著者の一人でもあるベスイスラエルの医師アダム・ロッドマンは、ガーディアン紙に対し、現在のところAI診断の周辺に「責任に関する正式な枠組みが存在しない」ことを警告しており、患者はなお「」状態にあると述べている。
