Column

AIが法廷を再現する——民事裁判シミュレーションで契約紛争の勝率を試算する

大規模言語モデルで裁判官・原告・被告を役割分担させ、民事裁判の全手続きを再現するフレームワークが登場した。訴訟前に仮想法廷で争点を洗い出し、賠償額レンジを試算することで、企業法務の意思決定コストを大幅に削減できる可能性がある。

2026 / 06 / 10 5 分で読める English version →

仮想の法廷でAIエージェントが裁判官・原告・被告として議論を交わしている様子を表したフラットイラスト

こんにちは。Affectosphere Group の井下です。

「この契約トラブル、もし訴訟になったら勝てるか」という問いに、今すぐ答えられる仕組みが出てきています。

弁護士に相談するにはまだ早い。でも、このまま泣き寝入りするのも違う。そういうグレーゾーンで意思決定を迫られる場面は、企業法務の現場に無数にあります。

2026 年 6 月に arXiv で公開された研究（Yifan Chen ら、清華大学; arXiv:2606.09632）は、大規模言語モデル（LLM）を使って民事裁判の全手続きを再現するマルチエージェントフレームワークを提案しています。裁判官・原告・被告を別々の AI エージェントが担い、実際の法廷と同じ流れで審理を進めて判決を生成するというシステムです。

リーガルテックの文脈で語られることの多い LLM ですが、この研究はこれまでの「法律問題への Q&A」や「判決文の要約」とは一線を画します。裁判プロセスそのものをシミュレーションするという点で、企業法務の活用シナリオが大きく広がる内容です。

今日の 3 点

5 段階の民事手続きを LLM マルチエージェントで再現し、責任配分と判決を自動生成できる。
短期・長期の二層メモリにより、証拠と争点の一貫性が維持される。
訴訟前の「仮想法廷テスト」として使えば、企業法務の意思決定コストを削減できる。

① 5 段階の法廷を AI が再現する

このフレームワークのユニークさは、裁判の「流れ」を忠実に再現している点にあります。

中国民事訴訟の手続きに基づいて、以下の 5 段階が設計されています。

第一段階は「準備段階」。裁判官役の AI が法廷を開き、当事者の確認と手続的な質問を行います。

第二段階は「法廷調査」。原告側 AI が請求内容と事実主張を述べ、被告側 AI が反論します。証拠の提出と質問がここで行われます。

第三段階は「法廷論争」。責任、法的根拠、救済の範囲について双方が議論を交わします。実際の法廷でもっとも緊張感のある場面です。

第四段階は「最終陳述」。判決前に双方が最後の主張をまとめます。

第五段階が「判決」。裁判官役 AI が積み上げてきた情報と法令を参照し、構造化された判決文を生成します。

この 5 段階を 3 つのエージェント——裁判官・原告・被告——が役割に応じた戦略で対話する形で進めます。裁判官は事実認定と争点整理を担い、原告は請求の正当性を主張し、被告は責任の回避や軽減を狙う。それぞれの「立場のロジック」がプロンプト設計に組み込まれています。

② メモリで「審理の一貫性」を保つ

長い審理を通じて情報の一貫性を保つのは、LLM が苦手とする問題のひとつです。この研究は二層のメモリ構造でその課題に対処しています。

短期メモリは、現在の段階での対話履歴を保持します。その場の発言の流れを失わないための仕組みです。

長期メモリは、法廷調査と論争が終わった後に生成されます。争点の整理、証拠の調査結果、当事者の意見の相違、責任の関係性、そして賠償額に関わる数値情報——これらが構造化されて保存されます。

この長期メモリが後の判決に使われます。実験では、メモリの品質が下がったときに総合スコアが 5.47 から 5.00 に低下したことが確認されています。メモリの精度が判決の質を左右するという、シンプルだが重要な知見です。

法令検索機能も統合されており、関連する条文を審理の文脈で参照できます。人間の弁護士が法律データベースを引くように、AI が必要な根拠を調達する仕組みです。

③ 企業法務が「今すぐ使える」仮想法廷テスト

この研究の実務的な含意を、企業法務の観点から整理します。

もっとも直接的なユースケースは「訴訟前の勝訴確率試算」です。

取引先との代金未払いトラブル、業務委託契約の解除紛争、製品の欠陥に関する損害賠償請求——こういった案件が発生したとき、最初に知りたいのは「法廷に持ち込んだら勝てるか、どのくらいの賠償額が認められるか」という情報です。

仮想法廷シミュレーションを使えば、自社の証拠と主張をインプットし、相手方の反論シナリオと裁判官の判断をシミュレーションで確認できます。完全な予測ではありませんが、「訴訟リスクのレンジ感」を事前に掴む判断材料として機能します。

実験の定量結果を見ると、直接 LLM に判決を生成させた場合と比べて、責任配分（liability allocation）スコアが 5.44 から 5.86 へ向上しています。単純な生成より、手続きを追ったシミュレーションのほうが責任の判断精度が上がる——これは直感的にも納得できる結果です。

具体的な導入シナリオを考えると、次のような使い方が想定されます。

法律事務所では、弁護士が案件受任前のスクリーニングに使えます。証拠の強弱を事前に確認し、勝訴可能性が低い案件への過剰なリソース投下を防げます。

企業法務部では、訴訟か和解かの意思決定に活用できます。シミュレーションで「裁判になった場合の最悪・最良シナリオ」を試算し、和解交渉の条件設定に使うわけです。

契約部門では、紛争リスクの高い条項に対してシミュレーションを回し、契約締結前のリスク評価に組み込むことができます。

KPI として設定しやすいのは「訴訟判断のリードタイム短縮」です。弁護士への初期相談から「訴訟か和解か」の方針決定までにかかる日数を、仮想法廷テストの導入前後で比較するのが分かりやすい指標です。

現時点での限界と、それでも使う理由

この研究には正直に語られた限界もあります。

賠償金額の数値判断（Quantitative Judgment Precision）のスコアは全設定で低い水準にとどまっており、3.77 から 4.90 という範囲です。具体的な賠償額の予測精度は、まだ実用水準に達していません。

また、モデルによって品質が大きく変わります。最高スコアが 5.47、最低が 4.54 という差があり、使う LLM の選択が結果に影響します。

評価に法律専門家が関与していない点も、研究者自身が認めている課題です。

ただ、これらの限界は「使えない」を意味しません。「精密な法的判断の代替」としてではなく、「意思決定の初期情報を整理するツール」として使う分には、現状でも十分な価値があります。訴訟の最終判断は弁護士と行う。その前段の情報収集と論点整理に AI を活用する。この役割分担が現実的な導入の形です。

法廷の「リハーサル」ができる時代

AI が法廷を再現するという発想は、数年前なら SF の話でした。それが実際のシステムとして動き、論文として検証されています。

裁判は「強い証拠と論理を持った側が有利になるゲーム」という側面があります。そのゲームのルールと勝敗パターンを、本番前にシミュレーションで確認できるなら、使わない理由はないと思います。

データセットとコードは公開される予定で、自社の案件に適用するための技術的な参入障壁は下がっていきます。リーガルテック企業にとっては製品設計の参考に、企業法務部門にとっては近い将来のツールとして、注目しておく価値がある研究です。

では！

参考論文

Yifan Chen, Haitao Li, Kaiyuan Zhang, Yueyue Wu, Qingyao Ai, Yiqun Liu (2026). Civil Court Simulation with Large Language Models. arXiv preprint arXiv:2606.09632.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。