Column

「自信 92%」と言い切る感情 AI が、いちばん危ない

顧客の感情を読む AI が、迷うべき場面でも自信満々に答えてしまう。CX・サポート・SaaS の現場で何が起きるのか、不確実性研究 3 本と感情 AI の視点から 5 分で。

2026 / 06 / 01 5 分で読める English version →

こんにちは。Affectosphere Group の井下です。

最近、SaaS のカスタマーサクセスの方とこういう話をしました。

「うちの解約予兆ツール、顧客の感情を読むやつなんですけど、『怒り 92%』って出てくると、現場のオペレーター全員、もう疑わなくなるんですよね」

これ、聞いた瞬間に、ぞわっとしました。

92% という数字には、人を黙らせる力があります。「機械が 9 割の確信で言ってるなら、まぁそうなんだろう」と、現場の人の「疑う力」がそっと落ちてしまう。

でも実際には、その発話に対して人間 10 人に判定させると、4 対 3 対 3 で割れるような ── つまり「人間でも迷う」種類の発話だったりするわけです。

私たちが 2026 年に出した 3 本の研究 ¹ ² ³ は、まさにこの「自信過剰な感情 AI」を真正面から扱いました。

結論を先に書くと、

「100% の自信で間違う AI より、70% の自信で正しく迷う AI のほうが、顧客と事業を守る」。

今日はこの話を、CX・サポート・SaaS・マーケティング分析の方向けに書きます。

今日の結論を 3 行で

価値: 感情 AI が「迷うべき場面で迷う」設計になっていれば、トリアージ効率と顧客信頼が同時に上がる。
落とし穴: 既存の感情 AI に後付けで「自信を抑えさせる」処理を入れても、改善は最大 14% 程度。本気で直すなら学習段階からの設計変更が必要。
隠れた論点: 不確実性は「データが曖昧なせい」と「モデルが知らないせい」の 2 種類あって、これを分けられない AI は、説明責任を果たせない。

順に書きます。

① 価値の話 ──「迷う AI」は劣化版じゃない、上位版

最初に、価値側からいきます。

感情 AI が確信度を正直に出せると、運用設計が一段クリーンになるんです。

たとえばサポートセンターで、

明らかな怒り(確信度高い)→ ベテランオペレーターに自動エスカレーション
明らかな満足(確信度高い)→ 自動応答で完結
微妙な発話(確信度低い)→ 人間レビューに回す

こういうトリアージが、確信度を信頼できる前提で初めて成立します。

「すべて人間が見る」のでもなく、「すべて AI に任せる」のでもない、確信度ベースの仕分けが、サポートコストと顧客満足を両取りする現実解です。

そして、これは B2B SaaS の世界では、ブランドの差別化軸にもなりえます。

「当社の感情 AI は、迷うときは『迷っています』と表示します」── このメッセージは、「精度 99%」を謳う競合よりむしろ信頼を生みます。なぜなら、誤判定のコストを最終的に引き受けるのは導入企業側だからです。

② 研究が見せた、3 つの不都合な事実

ここからが、本丸です。

1. LLM は「多数派の答え」は当てるが、「迷い」は再現できない

4 つの代表的 LLM に対して、64 万件規模の応答を集めた大規模実験で分かったこと。

LLM は、人間アノテーターの多数派ラベル ── つまり「最も多くの人が選んだ感情」── は概ね捉えられます。

一方で、人間が判断を分けた発話 ── たとえば「喜び 50%、感謝 30%、安心 20%」のような割れ方 ── を再現する能力は、構造的に不足していました。

ビジネスの言葉に翻訳すると、

AI は「最も売れている商品」は当てられるが、「どの程度迷うべき顧客なのか」までは見えていない。

ここが、地味に効いてきます。

2. 後処理の調整では「最大 14%」しか改善しない

温度調整 (temperature scaling) や Platt scaling といった、後付けで「自信を抑えさせる」処理 ── これを入れても、改善幅は最大 14% 程度にとどまりました。

意味するところは、すでに導入済みの感情 AI に絆創膏的な改修をしても、根本的な信頼性問題は解けないということ。

本気で「迷う AI」を作るには、学習段階から不確実性を扱う設計が必要になります。

これは調達側にとっては地味に重要で、「とりあえずキャリブレーション API を足しておけば大丈夫」が通用しないという話です。

3. 不確実性は 2 種類に分けないと意味がない

もう 1 本の研究では、cSG-MCMC というベイズ的サンプリング手法とソフトラベル学習を組み合わせ、不確実性を 2 つに分解する枠組みを提案しています。

認識的 (epistemic) 不確実性: モデルが知識不足で迷っている。データを増やせば原理的に減らせる。
偶然的 (aleatoric) 不確実性: データそのものが本質的に曖昧。データを増やしても減らない。

感情判定は、この 2 つがほぼ常に混ざっています。区別できる AI と区別できない AI では、現場の意思決定の質が大きく変わります。

「モデルがまだ学習不足で迷っている」のか「そもそも人間でも意見が割れる発話」なのか ── これが答えられないと、顧客にも社内監査にも説明できない。

加えて、もう 1 本の研究 ³ は、会話中の感情遷移を「持続」(自分の感情が続く)と「伝染」(他者に影響される)に数学的に分離する道を示しました。「この顧客の怒りは根が深いのか、ただオペレーターの口調に反応しただけか」── この区別が、エスカレーション判断の質を変えます。

③ 感情 AI の視点から見ると、ここが本質

ここが、Affectosphere Group として一番強調したい論点です。

私たちの研究室は、感情を「曖昧で多義的なまま扱う」ことを核にしています。理由はシンプルで、人の気持ちは平均値や多数決で潰せるものじゃないからです。

「怒り 92%」と言い切られた瞬間、本当はそこにいた「悲しみ 30%」「困惑 25%」「失望 20%」── つまり、混ざり合っていた他の感情が全部、消されてしまう。

これは、感情データに対する一種の「乱暴な丸め」です。

そして、その丸めが起きていることを、現場の人もユーザーも気づかない。なぜなら「92%」という数字が、それだけで権威を持ってしまうから。

感情 AI が誠実であるためには、

迷うべき場面で、正直に迷う
なぜ迷っているのか(データが曖昧なのか、モデルが知らないのか)を分解して伝える
確信が低いときは、判断を人間に返す

この 3 つが必要です。技術的にはもう可能になっている。あとは、調達と運用の側がこの設計を選ぶかどうか、という話です。

じゃあ、明日から何をするか

リスクだけ煽るのはフェアじゃないので、現場で動かせる話を 3 つだけ。

確信度の監査: 自社感情 AI の「90% と表示された判定の、実際の正解率」を四半期に一度測る。これだけで、現場の AI 依存度は健全な水準に戻ります。
閾値運用の導入: 信頼度が一定以下の判定は、自動的に人間レビューに回す仕組みを入れる。すべてを AI に任せない、すべてを人間が見ない、その中間の設計です。
調達基準の更新: 次回 AI ベンダー選定で「不確実性分解可否」「ソフトラベル学習対応」を要件に追加する。「判定だけ返す API」は、もう次の調達では落としていい時代に入っています。

締め

精度競争の時代から、不確実性表現の時代へ。

感情 AI の評価軸は、いま静かに塗り替わっています。

「100% の自信で間違う AI」より「70% の自信で正しく迷う AI」のほうが、長期的には顧客と事業を守る。これは最新研究が一致して示している方向です。

そして感情 AI を研究してきた立場から付け加えると、「迷う」ことは弱さではなく、人の気持ちに対する誠実さです。

92% という数字に、現場担当者の判断を奪わせない。迷うべきときに、AI が「迷っています」と言える設計を選ぶ。

これが、感情 AI を顧客向けに運用するすべての組織にとって、いま問われている話だと思います。

ということで、今日はここまで。

「うちの感情 AI、迷うべき場面で迷えてますか?」── この問いを次回の AI ベンダーレビューに持ち込んでいただければ、嬉しいです。

参考論文

Keito Inoshita, Xiaokang Zhou, Akira Kawai, Katsutoshi Yada (2026). LLMs Capture Emotion Labels, Not Emotion Uncertainty: Distributional Analysis and Calibration of Human-LLM Judgment Gaps. arXiv preprint.
Keito Inoshita, Takato Ueno (2026). Uncertainty Decomposition via Cyclical SG-MCMC and Soft-label Learning for Subjective NLP. arXiv preprint.
Keito Inoshita, Takato Ueno (2026). Bayesian Spectral Emotion Transition Discovery from Multi-Annotator Disagreement. arXiv preprint.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。

Keito Inoshita, Xiaokang Zhou, Akira Kawai, Katsutoshi Yada, “LLMs Capture Emotion Labels, Not Emotion Uncertainty”, arXiv preprint, 2026. ↩
Keito Inoshita, Takato Ueno, “Uncertainty Decomposition via Cyclical SG-MCMC and Soft-label Learning for Subjective NLP”, arXiv preprint, 2026. ↩
Keito Inoshita, Takato Ueno, “Bayesian Spectral Emotion Transition Discovery from Multi-Annotator Disagreement”, arXiv preprint, 2026. ↩ ↩²