Column

ガイドライン PDF のまま使える ── LLM が電子カルテを自動監査する時代

「ガイドラインに沿った治療が行われているか」を人手で確認するのは限界がある。イタリアの病院で実証された LLM オーケストレーション手法は、PDF のガイドラインをそのまま入力として 463 件の脳卒中患者トレースを自動監査し、86% 超の準拠率を定量化した。医療品質管理・ヘルステック実装の観点から整理する。

2026 / 06 / 10 6 分で読める English version →

病院の電子カルテ画面と臨床ガイドライン文書を繋ぐ LLM パイプラインのフラットイラスト

こんにちは。Affectosphere Group の井下です。

病院の品質管理部門や医療情報システムに関わっている方なら、こういう状況に心当たりがあると思います。

「ガイドラインに沿って治療されているか、定期的にカルテを確認したい。でも、手で抜き出すには件数が多すぎる」。

「監査ツールを導入しようとしたら、ガイドラインを専用フォーマットに変換しなければならず、費用と工数が見合わなかった」。

「診療報酬の審査や訴訟リスク対応のために、準拠状況のエビデンスが欲しいが、現状はレポート作成に人手が掛かりすぎる」。

医療現場の「準拠性確認」、いわゆるコンフォーマンス・チェッキングは、患者安全と経営リスク管理の両面で重要でありながら、自動化が難しい領域でした。その障壁の核心は「ガイドラインが人間向けの自然言語で書かれており、コンピュータが直接解釈できない」という問題です。

2026 年 6 月に arXiv で公開された研究（Giorgio Leonardi, Stefania Montani, Manuel Striani, Alessandro Canessa, Delfina Ferrandi、arXiv:2606.09489）は、この障壁を LLM の多段階オーケストレーションで突破する実証システムを報告しています。イタリアのアレッサンドリア病院神経内科で 463 件の脳卒中患者データを使ったパイロット実装で、「ガイドラインの PDF 文書をそのまま入力として、電子カルテの自動監査が実現できる」ことを示しました。

今日はこの研究の内容を、病院経営者・医療品質管理担当・ヘルステック企業のエンジニアに向けて整理します。

今日の 3 点

コア価値: PDF のガイドラインをそのまま使える。専用フォーマット変換が不要になる。
6 段階の LLM パイプライン: 退院記録の構造化→ルール抽出→Python スクリプト自動生成→準拠率算出という流れ。
実装視点の読み方: どの部署が何の KPI に使えるか、どんな限界があるか。

① 「CIG なし」が意味すること

まず「コンピュータ解釈可能ガイドライン（Computer-Interpretable Guidelines、CIG）」という概念を整理します。

従来の自動監査ツールは、「臨床ガイドラインをあらかじめ機械が読める形式（CIG）に変換しておくこと」を前提としていました。GLIF、ASBRU、PROforma など、専用のフォーマット仕様が研究されてきましたが、実際の医療現場に普及しているとは言いがたい状況が続いています。なぜなら、変換作業は高度な専門知識を要し、コストがかかり、ガイドラインが改訂されるたびに更新が必要だからです。

世界中の臨床ガイドラインの大半は今も PDF や Word 文書で配布されています。これが「自動監査の壁」でした。

Leonardi らの研究が提示したのは「CIG を作らなくていい」という発想の転換です。LLM の自然言語理解能力を使えば、そのままの PDF テキストからルールを抽出し、実行可能なコードに変換するパイプラインが構築できる、と。

② 6 段階の LLM パイプライン

このシステムは 6 つのステップで動きます。モデルは各ステップで役割が異なります。

ステップ 1 ── 退院記録からトレース抽出（Gemini 2.5 Flash）。退院時サマリーを入力として、「患者が何の処置をいつ受けたか」という時系列のイベントログ（XES 形式）を生成します。アレッサンドリア病院では 463 件の患者記録から各患者あたり平均 47 のイベントを抽出しました。

ステップ 2 ── ガイドラインからルール抽出（NotebookLM）。イタリア脳卒中協会のガイドライン PDF から、IF-THEN 形式の臨床規則を識別します。このステップで 161 件のルール候補が生成されました。

ステップ 3 ── 適用可能ルールの絞り込み（Gemini 2.5 Flash）。161 件のうち、入院中の急性期管理に関係しないルール（外来予防など）や、電子カルテに対応データが存在しないルールを除外します。結果として 50 件に絞られました。

ステップ 4 ── Python スクリプトへの変換（Gemini 2.5 Flash）。50 件のルールをそれぞれ実行可能な Python スクリプトに自動変換します。各スクリプトがイベントログを読み込み、準拠・非準拠・適用外を判定します。

ステップ 5 ── コード品質向上（Gemini 2.5 Pro Preview）。生成された Python コードのバグ修正・冗長性除去・可読性向上を別モデルが担当します。

ステップ 6 ── 準拠率の算出（Python モジュール）。各ルールについて「Trace Conformance Indicator（TCI）」と呼ばれる指標を計算します。TCI はシンプルで、「そのルールが適用される患者のうち、ガイドラインに準拠していた割合」をパーセンテージで表します。

③ 実際の結果と発見された課題

463 件の患者トレースを 50 のルールで監査した結果、全体の 86% 超が準拠と判定されました。

しかし、個別のルールに見ると興味深い発見がありました。

脳出血患者への降圧療法に関するルールでは、TCI が 62% にとどまりました。調査の結果、「降圧治療が救急部門ではなく神経内科病棟に転棟してから初めて実施されていた」ことが判明しました。部門間連携の問題が数値として可視化された例です。

解熱療法に関するルールでは、TCI がわずか 6% でした。これは一見、重大な非準拠に見えます。しかし深掘りすると、非準拠とされた患者の 69% は細菌感染による発熱（抗生物質で治療中）、6% は COVID-19（抗ウイルス薬で治療中）でした。これらは解熱剤ではなく根本原因への対処として臨床的には適切な判断です。「数値だけでは判断できない」という重要な示唆です。

検証として、医師がランダムに抽出した 20%（約 93 件）のトレースを手動確認したところ、すべてのトレースが正確と判定されました。

④ 実装視点：どの部署が何に使えるか

品質管理・医療安全部門

このシステムが最も直接的に使えるのは、定期的なカルテ監査の自動化です。これまで月次・四半期ごとに人手で行っていたサンプル監査を、リアルタイムまたは週次の全件モニタリングに切り替えられる可能性があります。KPI として「ルール別 TCI の推移」「非準拠件数の時系列変化」を継続的にトラッキングすることで、部門・時期・病棟ごとの準拠傾向の差異も見えてきます。

リスクマネジメント・法務部門

診療訴訟や医療紛争において、「その治療がガイドラインに準拠していたこと」のエビデンス提出が求められる場面があります。TCI スコアとその根拠となるログを自動生成・保存しておくことは、事後的な証拠作りの観点で価値があります。

診療報酬・医療費審査部門

保険者や審査機関への報告において、ガイドライン準拠の定量的エビデンスが求められるケースは今後増えていく可能性があります。特定の処置の実施有無だけでなく「タイミング」「実施場所」「前後の処置との整合性」まで確認できる点は、従来の人手チェックより詳細です。

ヘルステック企業・EMR ベンダー

「CIG 変換不要」という特性は、既存の電子カルテ・退院サマリーシステムへの統合障壁を大きく下げます。専用フォーマット変換モジュールの開発・維持コストが不要になるため、小規模病院や途上国の医療機関への展開でも現実的な選択肢になり得ます。

⑤ 現状の限界と今後

正直なところ、このシステムには現時点での制約があります。

電子カルテに記載されていない情報は確認できません。医師の口頭指示・看護師の観察記録など、退院サマリーに反映されないデータは検査範囲外です。

ガイドラインからのルール抽出は完全ではありませんでした。161 件の候補のうち 3 件は原ガイドラインと比較して不完全な変換となり、二次予防に関するカテゴリは品質が低かったと論文は認めています。

また、このシステムは「記録された事実が正しいこと」を前提とします。記録自体の誤りや漏れは検知できません。

論文は今後の方向性として、複数の病院データソースとの統合、更なる LLM モデルの評価比較、リアルタイム監査への拡張を挙げています。「ガイドラインが更新されたらパイプラインを再実行するだけ」という運用の軽さは、現場への普及を考えると重要な設計上の強みです。

まとめ

Leonardi らの研究が示したのは、「PDF ガイドライン + 電子カルテ」という現場にすでにある素材だけで、LLM の多段階オーケストレーションにより自動監査が成立するという実証です。

463 件・50 ルールという規模はパイロット段階ですが、アーキテクチャの原理は拡張可能で、CIG が普及していない現実の多くの医療機関に直接適用できます。

「AI を使った医療安全」というと壮大に聞こえますが、この研究が実際にやっているのは「自然言語のルールを整理して、ログを照合して、パーセンテージを出す」というシンプルな仕組みです。シンプルだからこそ、現場への実装可能性がある。そういう種類の研究です。

病院の品質管理やシステム企画に関わる方には、「今すぐ導入できる」というより「この設計思想で何を作れるか」を考えるきっかけとして読んでいただけると思います。

参考論文

Leonardi, G., Montani, S., Striani, M., Canessa, A., & Ferrandi, D. (2026). LLM-Orchestrated Conformance Checking in Stroke Care Without Computer-Interpretable Guidelines. arXiv:2606.09489. https://arxiv.org/abs/2606.09489

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。