Column

GPT に宅建を解かせてみたら、士業の未来の輪郭が見えた話

GPT-3.5 と GPT-4 を、日本の宅地建物取引士試験の過去問にぶつけてみた研究の話。「合格できない AI」を、合格者の生産性を 1.5 倍にするツールに変える設計の輪郭を、リーガルテック・法務・士業向けに 5 分で。

2026 / 06 / 01 6 分で読める English version →

こんにちは。Affectosphere Group の井下です。

最近、リーガルテックを検討している企業の方とよく話すんですが、毎回出てくる質問があります。

「で、結局 LLM はどこまで信用していいんですか?」

これ、すごくフェアな問いだと思うんです。

「精度 90% 出ます」と言われても、その 10% が契約の重要条項だったら全部終わる。逆に「精度 60% です」と言われても、用途次第では十分すぎる場面がある。

この問いを定量的に扱う最良の素材が、国家資格試験の過去問です。

出題範囲が明確、合格点が公的に決まっている、誤答パターンの分析もしやすい。AI の「業務代替能力」を数字で語れる、希少な土俵です。

私が 2024 年に書いた論文 ¹ では、日本の宅地建物取引士(以下、宅建)試験の過去問 10 回分に、GPT-3.5 と GPT-4 をぶつけました。

今日はこの結果を、技術論文としてではなく、「自社業務に LLM をどこまで組み込むか」を考えるための材料として、ほぐして書きます。

今日の結論を 3 行で

価値: 「合格できない AI」でも、合格者の業務時間を圧縮できる。リーガルテックの ROI はここに乗る。
構造: 汎用 LLM の弱点は「領域固有の細則」と「最新法令への追随」。逆に言うと、ここを RAG で補えば一気に化ける。
注意: 「最終判断を任せる」設計は、法的にも訴訟的にも今は受け入れがたい。下書き機として使うのが正解。

順番に書きます。

① まず、何がわかったか

研究では、宅建試験 10 回分を GPT-3.5 と GPT-4 に解かせて、正答率と誤答パターンを比較しました。

ざっくり結果はこうです。

GPT-4 は GPT-3.5 を全体的に上回る
ただし、どちらも宅建の合格水準には届かない
誤答は税法・宅建業法など領域固有の細則に集中する
「慣習法を考慮せよ」「不動産取引の実務を考慮せよ」といった補助プロンプトを与えると、複雑問題の正答率が改善する

「最新の GPT を使えば資格保有者と同等の判断ができる」 ── これ、少なくとも国家資格レベルの法的判断に関しては、現時点では成立しません。

でも、ここで止まるとフェアじゃない。

「合格できない」と「業務で使い物にならない」は別の話だからです。

② 「合格できない AI」がそれでも業務で使える理由

宅建士の業務時間って、実は試験問題を解くような場面に費やされているわけじゃないんですよ。

実務の大半は、こんな作業です。

物件資料を読んで論点を抽出する
過去の類似ケースを当たって構造を比較する
重要事項説明書のドラフトを作る
お客さんからの質問に対して、関連条文を引いて整理する
上長や有資格者に最終確認してもらう

ここでの LLM の役割は、「最終判断者」ではなくて、「下書き機」「論点抽出機」「一次サーベイ機」です。

このレイヤーは、GPT-4 が圧倒的に得意。研究で見た「合格点には届かない」精度でも、十分に使える。

たとえば宅建士が、お客さんから「この物件、住宅ローン控除の対象になりますか?」と聞かれたとき、

まず LLM に関連条文を一次サーベイさせる
出てきた条文を、有資格者が現行法に照らして最終確認する
必要があれば税理士に確認するルートに乗せる

この設計だと、LLM が「税法の細則を間違える」ことのリスクは、有資格者の最終確認で吸収されます。

そして、有資格者の作業時間は、たぶん 5 割くらい圧縮できます。

これが「合格できない AI を、合格者の生産性を 1.5 倍にするツールに変える」発想です。

③ 弱点を構造的に補う ── RAG という当たり前の話

研究でもう一つわかったことが、「補助プロンプトで複雑問題の正答率が改善する」という点です。

つまり、LLM は知識を「持っていない」のではなく、「適切な参照枠を与えられないと取り出せない」場面が一定数ある。

ここから自然に出てくる結論が、RAG(検索拡張生成)の活用です。

汎用 LLM の最大の弱点は「学習データのカットオフ」で、最新の法改正に追随できないこと。宅建業法、税法、労働関連法、個人情報保護法 ── 改正頻度が高い領域ほど、汎用 LLM をそのまま使うのは危険です。

これを、最新の法令データベースを LLM に「参照させる」設計で補う。

LLM 単体ではなく、「LLM + 最新条文 DB + 内部規程 + 有資格者の最終確認」というアーキテクチャで使う。

リーガルテックの設計、たぶんこの 4 点セットがしばらく標準解になると思っています。

④ 感情 AI の研究者として、ここは付け加えたい

ここからが、Affectosphere Group ならではの視点です。

リーガルテックを設計するとき、ほとんどの会社が考えるのは「精度」と「コスト」と「監査証跡」だと思います。

これは正しい。でも、もう一つ見逃してはいけないものがある。

それは、「お客さんの感情」と「有資格者の感情」です。

不動産取引って、人生で何回もある手続きじゃないんですよ。家を買う、引っ越す、相続する ── ほとんどの場面で、お客さんは緊張しているし、わからないことだらけで不安になっている。

そういうお客さんの一次窓口を AI に置くとき、設計を一歩間違えると、「中立で、正確で、しかし冷たい」応答が返ってきます。

不安なお客さんに対して、技術的に正しいけれど感情的に適切でない応答を返す ── これは、規制違反ではないけれど、サービスの信頼を確実に蝕みます。

そして、それは数字に出ません。

私たちの研究室は、感情を「曖昧で多義的なまま扱う」ことを大事にしています。お客さんが「わからない」と言うとき、その背後には不安があったり、混乱があったり、専門家への不信があったりする。

それを「質問内容」だけに圧縮して LLM に渡すと、AI は「質問への回答」しか返せません。

リーガルテックの一次窓口で本当に必要なのは、「ちょっと立ち止まって、お客さんが何を不安に思っているかを察した上で答える」設計です。

これは、有資格者の側でも同じです。

LLM が下書きをしてくれることで、有資格者の時間は浮きます。その浮いた時間を「もっと多くの案件をさばく」に使うか、「お客さん一人ひとりとの対話に使う」に使うかで、5 年後の士業事務所の質はたぶん全然変わってきます。

感情 AI の研究者としての提案は、シンプルです。

リーガルテックの設計指標に、「お客さんの感情の解像度」を一行入れる。

これだけで、「精度と効率」の競争から、「精度と効率と感情の解像度」の競争へと、業界の評価軸を 1 つずらせる可能性があります。

じゃあ、明日から何をするか

リスクを並べるだけだとフェアじゃないので、現場で動かせる話を 3 つ。

線引きの文書化: 法務・契約業務における LLM 利用ポリシーを、「下書きはあり、最終判断はなし」で明文化する。これだけで現場が動ける。
ログの一体保存: LLM の出力、参照条文、有資格者の最終判断 ── この 3 点を一体で保存する仕組みを業務システムに入れる。監査時に必ず効きます。
一次窓口の設計: 顧客対応で「AI が答えていい範囲」と「人にエスカレーションする閾値」を明示的に決める。閾値の判断に、お客さんの「不安そう」のサインを入れる。

価値も大きい。リスクも大きい。どっちも見て扱う ── というのが、AI と感情を両方研究している立場からのお願いです。

締め

宅建試験に合格できない LLM は、宅建士の代わりにはなれません。

でも、宅建士の業務時間のうち、調査・整理・下書きに費やされる部分を圧縮することはできます。

そして、その浮いた時間を「お客さん一人ひとりとの対話の質」に振り替えられた事務所が、これからの 5 年で確実に勝ちます。

「LLM が資格保有者を置き換える」シナリオを警戒する一方で、「LLM が資格保有者の生産性を 1.5 倍にする」シナリオは、すでに射程に入っています。

両者を混同せず、補助ツールとしての設計に投資する ── これがリーガルテック領域での現実解だと思っています。

そして感情 AI の側から一つだけ加えるなら、「お客さんの感情の解像度」を設計指標に 1 行入れる。これが、たぶん業界の競争軸を 1 つ動かします。

「うちもリーガルテック入れるか」と考えている方、まず下書き機としての位置づけから始めてみてください。

ということで、今日はここまで。

参考論文

Keito Inoshita (2024). Assessing GPT’s Legal Knowledge in Japanese Real Estate Transactions Exam. 3ICT 2024, pp. 149-155.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。

Keito Inoshita (2024). Assessing GPT’s Legal Knowledge in Japanese Real Estate Transactions Exam, 3ICT 2024, pp. 149-155. ↩