Column
ベンチマーク高得点のLLMが、実際の診療では60%しか使えない理由
静的なQA問題を解くのが得意なLLMと、実際の診療現場で動的に使えるLLMは、まったく別物かもしれない。MedSP1000ベンチマークが明らかにした医療AIの実態と、導入判断への示唆。
こんにちは。Affectosphere Group の井下です。
医療 AI の調達・導入を検討する際、よく出てくるのが「このモデルはベンチマーク X でスコア Y を達成しています」という説明です。医療 QA ベンチマーク上の数字が高いモデルを選べばいい、という発想は直感的にわかりやすい。
でも 2026 年 6 月に arXiv で公開された研究(Cheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie ら、arXiv:2606.05112)は、その前提が危険である可能性を定量的に示しました。
静的なベンチマークで高得点を取ったモデルが、動的な診療インタラクションになったとたん、専門家基準の 60% しか達成できない。最高性能のモデルでもそうなのだから、専門特化モデルはさらに低い 40% 止まりという実態が浮かびあがりました。
今日の 3 点
- MedSP1000 という新しいベンチマークが、1,638 の動的な臨床シナリオで LLM を評価した。
- 最高性能モデル(GPT-5.5)でさえ専門家基準の 60.4% の達成率、医療専門モデルは 40% 止まり。
- 「静的ベンチマークスコア」だけを医療 AI 調達の判断基準にすることは見直すべきだ。
① 「静的 QA」と「動的臨床対話」の決定的な違い
医療 AI の評価でよく使われるベンチマークは、基本的に「問いと答え」の形式です。「この症状に対応する診断は?」「このエビデンスを踏まえた推奨治療は?」という問いに、正確に答えられるかを測る。
これは「知識の正確性」を評価しています。正しい情報を持っているか、という問いです。
でも、実際の診療はそうじゃない。
患者は一度に全症状を整理して話してくれるわけではありません。「昨日から頭が痛い」と言ったあとに「そういえば 3 日前から食欲もなくて」と付け足す。医師は対話を重ねながら情報を集め、動的に診断の仮説を更新していく。
MedSP1000 が設計したのは、この「動的なインタラクション」をシミュレートする評価です。
1,638 の標準化患者ケースを使い、24,602 の軌跡レベルの評価項目(rubric)で LLM を採点します。対話の途中で「この時点でどんな情報収集をしたか」「この段階で適切な鑑別診断を出せているか」という、プロセス全体を評価する設計になっています。
② 最高のモデルでも 60%、専門モデルは 40%
この研究の最も重要な数字は 2 つです。
最高性能を示した GPT-5.5 でも、専門家が定義した rubric 項目の 60.4% しか達成できなかった。そして医療専門に特化したモデルの最高値は 40.0% 止まり。
「医療特化モデルだから汎用モデルより強い」という直感的な予測が外れているのも重要な点です。汎用の最高性能モデルの方が、医療特化モデルより上だった。
もう一つ注目すべき知見があります。「テスト時の計算量を増やしても改善しない」という結果です。モデルに推論のための計算リソースをたくさん与えても、動的臨床意思決定の精度は上がらなかった。静的ベンチマークなら計算量を増やせば精度が上がることが多いのですが、動的な対話環境ではその手が効かない。
これは「静的 QA 上の性能」と「動的臨床対話の性能」が、根本的に異なる能力を要求していることを示唆しています。
③ 医療 AI 調達の「評価基準」を変えるべき理由
この研究の知見は、医療 AI システムの調達・導入判断に直接的な影響を持ちます。
現状の医療 AI 調達では、ベンダーが提示するベンチマークスコアが主要な評価材料の一つになっています。MedQA、USMLE、PubMedQA などのスコアを並べて比較する、という形です。
でも、MedSP1000 の結果が示しているのは、そのスコアが「実際の診療現場での性能」をあまり反映しないかもしれない、ということです。
では、どう変えるか。
病院 CIO や医療 AI 導入責任者にとっての現実的なアクションとして、調達評価に「動的インタラクション型の評価プロトコル」を加えることが考えられます。具体的には、MedSP1000 のような動的シナリオを使った評価、または自院の実際の診療ケースを匿名化して使った独自テストです。
「ベンチマーク上は優秀だが実臨床で使えない」という製品の誤採用は、医療安全上のリスクだけでなく、導入・移行コストの無駄にもなります。静的ベンチマークスコアだけで選んだシステムが実運用でうまくいかなかった、という事例はすでに報告が増えています。
投資回収の観点から見ても、評価プロセスを厳しくする方が長期的にはコスト効率が高い。動的シナリオ評価のプロセスを調達 RFP に組み込む、という選択肢は十分に現実的です。
ヘルスケア AI スタートアップへの投資を検討している立場なら、MedSP1000 のような動的評価での性能データを開示しているかどうか、を DD 項目に入れることも選択肢です。開示できる企業とできない企業では、実用化の見通しが大きく違うかもしれない。
「使えない」がわかったことの価値
厳しい結果に見えますが、この研究が示したことは前向きな意味を持ちます。
「現行 LLM は実際の臨床実践への安全な統合にはまだ不十分」というのは、撤退の勧告ではなく、「どこが不足しているかが測れるようになった」ということです。
MedSP1000 というベンチマークが存在することで、改善の方向が明確になります。動的対話で何が弱いのかが可視化されれば、それを改善する研究開発の目標ができる。
医療 AI の開発者にとっては、「次に目指すべき評価の基準」が示されたと解釈できます。
規制当局(PMDA・FDA)の立場では、このような動的評価を医療 AI の承認プロセスに組み込む根拠にもなり得ます。審査基準のアップデートという形で、こうした研究が政策に影響していく流れは今後加速するでしょう。
では!
参考論文
- Cheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie (2026). Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases. arXiv preprint.
※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。