Column

判例を「読む」から「解析する」へ——AIが裁判所の論理構造を自動マッピングする時代

香港の刑事判決文29万文を26種類の修辞役割でアノテーションした法的コーパス「HKJudge」が公開された。裁判所の「認定→推論→判決」構造をAIで自動解析する基盤が整いつつある今、リーガルテック・法務部門がとるべき実装戦略を5分で整理する。

2026 / 06 / 09 6 分で読める English version →

裁判所の文書、テキスト構造の解析ダイアグラム、法槌を抽象的に表現したフラットイラスト

こんにちは。Affectosphere Group の井下です。

法務部門や弁護士事務所の方と話すと、ある共通の悩みが出てきます。

「判例は山ほどある。でも、裁判所が何をどう考えて判断したのかを、短時間でつかむのが難しい。」

判決文というのは、論理の塊です。「裁判所がどの事実を認定したか」「どんな推論を経たか」「最終的に何を命じたか」が、数十ページにわたって記述されています。これを人間が一件一件読み解くのは、限界があります。

2026年6月に arXiv で公開された論文 ¹ は、この問題を正面から扱う研究です。香港の刑事判決文を対象に、法的言説を文レベルで自動解析するためのコーパス「HKJudge」を構築しました。

今日はこの研究を、リーガルテック企業・法律事務所・企業の法務部門・コンプライアンス担当の方向けに、実装の視点でほぐして書きます。

今日の 3 点

HKJudge は「裁判所の論理構造を文単位でラベル付け」した初の大規模コーパスで、29万文・650万トークンをカバーする。
BERTやGPT等のモデルで修辞役割分類と法的要素抽出の2タスクを評価し、ベースラインが示された。
このデータ基盤は、弁護士・法務担当が「裁判所がなぜその判断をしたか」を膨大な判例から高速に把握するAIツールの土台になる。

順番に書きます。

① HKJudge は何を作ったのか

研究チームは、香港の全5段階の裁判所から刑事判決文を収集し、29万文・650万トークンの大規模コーパスを構築しました。

特徴的なのは、アノテーション設計です。判決文の各文に対して「26種類の修辞役割（rhetorical role）」を付与しています。

修辞役割とは何か、少し説明が必要です。判決文の中には、「裁判所が事実を認定した文」「証拠を評価した文」「法的論拠を展開した文」「刑期や罰金を命じた文」など、役割が異なる文が混在しています。これを人間が一読するとき、文脈から判断している。それを機械にも理解させるため、「この文はどの役割を担っているか」を明示的にラベル付けする試みが修辞役割アノテーションです。

26種類というのは、単に「主文か傍論か」といったざっくりした分類ではなく、裁判所の認定・推論・判決のプロセスを細粒度で捉えた設計です。さらに文レベルとは別に、刑事事件特有の3要素——「告発内容」「刑期」「罰金」——をスパン単位で抽出するタスクも設計されています。

アノテーターは法言語学の専門家10名で、inter-annotator agreement（アノテーター間一致度）κ=0.8 という高い水準を達成しています。これは研究用コーパスとして十分な信頼性を示す指標です。

② 何が難しくて、何ができるようになるのか

BERTやGPTといったモデルでベンチマーク評価をした結果、修辞役割分類はある程度機能し、法的要素抽出の難易度は高めという傾向が出ています。

なぜ難しいのか。法的文書の言語は、日常のテキストと異なる特性があります。一文が非常に長い、論理が入れ子になっている、前後の文脈に依存した解釈が必要になる、法律用語が独特の意味で使われる——こうした特性が、汎用LLMの苦手分野と重なります。

逆に言えば、「法的言説に特化して学習されたモデル」の需要がここから生まれます。HKJudge のようなコーパスは、まさにその特化学習の素材になります。

実装観点で重要なのは、この研究がタスクを2層に設計したことです。文単位の「修辞役割分類」と、スパン単位の「法的要素抽出」を組み合わせることで、「この判決はどんな構造で、どの刑期を命じたか」という問いに、段階的に答えられる基盤ができます。

③ 法務・リーガルテックへの実装ヒント

ここからは実務の話です。想定される応用とKPIの例を整理します。

まず、弁護士・法務担当者の判例調査支援です。

大量の判決文から「裁判所が類似の事実認定をしたケース」を素早く抽出できれば、調査工数は大きく下がります。現状、判例データベースで全文検索をかけると、テキストヒットはできるが「裁判所がその部分をどう位置づけているか」は読み込まないとわからない。

修辞役割分類があれば、「事実認定部分だけを対象に検索する」「推論の根拠として引用された法令を抽出する」という、構造を踏まえた検索が可能になります。KPIとしては「判例調査1件あたりの所要時間」の短縮が測定可能です。

次に、コンプライアンス部門の量刑・判決傾向の把握です。

企業が法的リスクを評価するとき、「類似事案で裁判所がどんな判断を下してきたか」の傾向把握が重要です。スパン単位で刑期・罰金額が抽出できると、「同種の告発内容における量刑の分布」を統計的に可視化できます。KPIとしては「リスク評価レポートの作成工数」の削減や、「見逃しリスクの低下」が候補です。

リーガルテックのプロダクト設計で言えば、HKJudgeのようなコーパスを起点に、対象言語・法域を拡張する方向が考えられます。香港の刑事判決文から始まり、他のコモンロー系法域（英国・シンガポール・オーストラリア等）の判決文に展開できれば、多言語・多法域の判例解析プラットフォームの基盤になります。

導入の注意点も一つ書いておきます。法的判断の最終責任は常に人間にある、という前提は崩れません。AIが「この判決の推論構造はこうです」と示しても、それを法的主張の根拠として使うかどうかは弁護士・法務担当が判断する必要があります。

設計のポイントは「AIが構造を示し、人間が判断する」という役割分担を明確にすることです。修辞役割分類の出力を「読み込みの補助」として使い、最終的な解釈は専門家が担う——このレイヤー設計が、現時点での現実的な実装です。

感情AIの研究者として付け加えたいこと

ここは少し視点を変えます。

法的な文書には、感情とは無縁のように見えます。でも判決文を読むと、「被告の動機」「被害者の証言への裁判所の評価」「量刑の酌量事由」といった形で、感情的・心理的な要素が論理の中に組み込まれています。

裁判所が「被告の反省の情を認める」と判断した場合、その文は修辞役割の中では「量刑の酌量理由」にあたります。こういった感情的評価を含む文の構造を自動解析できると、法的言説における感情の役割を定量的に研究できる可能性が開けます。

感情AI研究の立場から見ると、HKJudgeは「法律×感情」の接点を探る研究の素材にもなります。これは、Affectosphere Group が追いかけているテーマの一つでもあります。

締め

「判例を読む」から「判例を解析する」への転換が、静かに始まっています。

HKJudgeは香港の刑事判決文に特化したコーパスですが、示した設計思想は普遍的です。修辞役割という概念で法的言説を構造化し、AIに論理の地図を読ませる。

法務担当・弁護士が一件一件の判決文を読み込むコストを下げ、浮いたリソースを「依頼人への深い相談対応」に振り替える。その構造が整いつつあります。

導入を検討している方へ。まずは「どの判断フェーズでAIに構造解析を任せるか」の設計から始めることをお勧めします。全自動ではなく、人間の判断の前段階を補助する位置づけで試すのが、リスクも少なく学びも大きいです。

では今日はここまで。

参考論文

Xi Xuan, Wenxin Zhang, Yufei Zhou, King-kui Sin, Chunyu Kit (2026). HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule. arXiv:2606.06679.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。

Xi Xuan, Wenxin Zhang, Yufei Zhou, King-kui Sin, Chunyu Kit (2026). HKJudge: A Legal Discourse-Annotated Corpus for Interpreting What Courts Find, How They Reason, and What They Rule. arXiv:2606.06679. ↩