Column

ベンチマーク高得点のLLMが、実際の診療では60%しか使えない理由

静的なQA問題を解くのが得意なLLMと、実際の診療現場で動的に使えるLLMは、まったく別物かもしれない。MedSP1000ベンチマークが明らかにした医療AIの実態と、導入判断への示唆。

2026 / 06 / 05 5 分で読める English version →

こんにちは。Affectosphere Group の井下です。

医療 AI の調達・導入を検討する際、よく出てくるのが「このモデルはベンチマーク X でスコア Y を達成しています」という説明です。医療 QA ベンチマーク上の数字が高いモデルを選べばいい、という発想は直感的にわかりやすい。

でも 2026 年 6 月に arXiv で公開された研究（Cheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie ら、arXiv:2606.05112）は、その前提が危険である可能性を定量的に示しました。

静的なベンチマークで高得点を取ったモデルが、動的な診療インタラクションになったとたん、専門家基準の 60% しか達成できない。最高性能のモデルでもそうなのだから、専門特化モデルはさらに低い 40% 止まりという実態が浮かびあがりました。

今日の 3 点

医療 AI の評価でよく使われるベンチマークは、基本的に「問いと答え」の形式です。「この症状に対応する診断は？」「このエビデンスを踏まえた推奨治療は？」という問いに、正確に答えられるかを測る。

これは「知識の正確性」を評価しています。正しい情報を持っているか、という問いです。

でも、実際の診療はそうじゃない。

患者は一度に全症状を整理して話してくれるわけではありません。「昨日から頭が痛い」と言ったあとに「そういえば 3 日前から食欲もなくて」と付け足す。医師は対話を重ねながら情報を集め、動的に診断の仮説を更新していく。

MedSP1000 が設計したのは、この「動的なインタラクション」をシミュレートする評価です。

1,638 の標準化患者ケースを使い、24,602 の軌跡レベルの評価項目（rubric）で LLM を採点します。対話の途中で「この時点でどんな情報収集をしたか」「この段階で適切な鑑別診断を出せているか」という、プロセス全体を評価する設計になっています。

この研究の最も重要な数字は 2 つです。

最高性能を示した GPT-5.5 でも、専門家が定義した rubric 項目の 60.4% しか達成できなかった。そして医療専門に特化したモデルの最高値は 40.0% 止まり。

「医療特化モデルだから汎用モデルより強い」という直感的な予測が外れているのも重要な点です。汎用の最高性能モデルの方が、医療特化モデルより上だった。

もう一つ注目すべき知見があります。「テスト時の計算量を増やしても改善しない」という結果です。モデルに推論のための計算リソースをたくさん与えても、動的臨床意思決定の精度は上がらなかった。静的ベンチマークなら計算量を増やせば精度が上がることが多いのですが、動的な対話環境ではその手が効かない。

これは「静的 QA 上の性能」と「動的臨床対話の性能」が、根本的に異なる能力を要求していることを示唆しています。

この研究の知見は、医療 AI システムの調達・導入判断に直接的な影響を持ちます。

現状の医療 AI 調達では、ベンダーが提示するベンチマークスコアが主要な評価材料の一つになっています。MedQA、USMLE、PubMedQA などのスコアを並べて比較する、という形です。

でも、MedSP1000 の結果が示しているのは、そのスコアが「実際の診療現場での性能」をあまり反映しないかもしれない、ということです。

では、どう変えるか。

病院 CIO や医療 AI 導入責任者にとっての現実的なアクションとして、調達評価に「動的インタラクション型の評価プロトコル」を加えることが考えられます。具体的には、MedSP1000 のような動的シナリオを使った評価、または自院の実際の診療ケースを匿名化して使った独自テストです。

「ベンチマーク上は優秀だが実臨床で使えない」という製品の誤採用は、医療安全上のリスクだけでなく、導入・移行コストの無駄にもなります。静的ベンチマークスコアだけで選んだシステムが実運用でうまくいかなかった、という事例はすでに報告が増えています。

投資回収の観点から見ても、評価プロセスを厳しくする方が長期的にはコスト効率が高い。動的シナリオ評価のプロセスを調達 RFP に組み込む、という選択肢は十分に現実的です。

ヘルスケア AI スタートアップへの投資を検討している立場なら、MedSP1000 のような動的評価での性能データを開示しているかどうか、を DD 項目に入れることも選択肢です。開示できる企業とできない企業では、実用化の見通しが大きく違うかもしれない。

厳しい結果に見えますが、この研究が示したことは前向きな意味を持ちます。

「現行 LLM は実際の臨床実践への安全な統合にはまだ不十分」というのは、撤退の勧告ではなく、「どこが不足しているかが測れるようになった」ということです。

MedSP1000 というベンチマークが存在することで、改善の方向が明確になります。動的対話で何が弱いのかが可視化されれば、それを改善する研究開発の目標ができる。

医療 AI の開発者にとっては、「次に目指すべき評価の基準」が示されたと解釈できます。

規制当局（PMDA・FDA）の立場では、このような動的評価を医療 AI の承認プロセスに組み込む根拠にもなり得ます。審査基準のアップデートという形で、こうした研究が政策に影響していく流れは今後加速するでしょう。

では！

Cheng Liang, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Chaoyi Wu, Weidi Xie (2026). Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases. arXiv preprint.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。