Column

「ありがとう」を真に受ける AI は、最も大事な顧客を取り逃がす

顧客の「お見事ですね」が、賞賛なのか皮肉なのか。AI が取り違えた瞬間、NPS は上振れ、改善優先度は下がり、本当に怒っている人は黙って離脱します。最新の皮肉認識研究 2 本から、CX 担当者向けに 5 分で。

2026 / 06 / 01 5 分で読める English version →

「お見事」という同じ言葉が「字面」と「本音」の二色で表現された抽象的なビジュアル

こんにちは。Affectosphere Group の井下です。

先日、ある SaaS 企業の CX マネージャーの方とお話していて、こんな相談を受けました。

「うちの NPS、なぜか毎月微増してるんですよ。なのに解約率も上がってる。これ、何が起きてると思います?」

ぞわっとしません?

NPS は伸びている、なのに解約は増えている。この組み合わせ、けっこうな確率で「皮肉を真に受ける感情分析 AI」が裏で動いていることが原因だったりします。

たとえば、こんなレビュー。

「お見事な対応でした、二度と御社のサービスを使わないと決めるには十分です。」

これを AI が「ポジティブ」と分類した瞬間、NPS スコアは実態より高く出て、改善優先度は下がります。そして、本当に怒っている顧客は静かに去っていく。

ダッシュボード上では、「改善できている」ように見える。これが一番こわい。

私たちが 2025 から 2026 年にかけて公開した 2 本の皮肉認識研究¹²を、今日は CX・VoC・サポートの現場の言葉で書きます。

今日の結論を 3 行で

価値: 皮肉を正しく読める AI は、「表層ポジティブ × 本音ネガティブ」という、最も改善優先度の高いセグメントを浮かび上がらせる。
注意: 一発で当てに行く LLM ではなく、認知過程を分解して推論するモデルや、正直に迷えるモデルのほうが、運用では強い。
感情 AI 視点: 「曖昧さを潰さない AI」を持っているかどうかが、CX の解像度を決める。確信度を出さない AI は、確信度を出す AI より運用しづらい。

順に書きます。

① 皮肉は「分類」ではなく「認知の連鎖」として解く

最初の研究、WM-SAR(World Model Inspired Sarcasm Reasoning)は、皮肉を一発で当てに行くアプローチを捨てたところが面白いです。

人間が皮肉を理解するとき、私たちは無意識のうちにこんなステップを踏んでいます。

状況を観察する(「上司に締切を 1 日遅らせてもらった」)
その状況での規範的な発話を予測する(「普通なら『助かりました』とか言うかな」)
実際の発話とのズレを検出する(「『お見事な裁量ですね』って…ズレてる」)
そのズレから本当の意図を推論する(「あ、これは皮肉だ」)

WM-SAR は、この 4 ステップをそれぞれ別の LLM エージェントに分業させる設計です。

ここで言う「世界モデル(world model)」とは、人が現実を理解するために持っている内的な予測装置のことです。皮肉は、世界モデルに基づく「規範的な発話」と実際の発話の間に、意図的なズレを置くことで成立する。

このズレを構造として実装に持ち込んだのが WM-SAR、というわけです。

実務的に何が嬉しいか。「なぜ皮肉と判定したか」が、出力に自然に付随します。 VoC レポートで「この発言は表面的にはポジティブですが、状況の規範から外れているため皮肉と判定しました」と説明できる。意思決定者の納得感、桁違いに上がります。

② 「字面」と「本音」を二系統で処理する

もう一本、DBDA-EDL の話を。

このモデルは、同じ発話を「字面の表現」と「本音の表現」の 2 つの並列ストリームで処理して、その不一致(discrepancy)を融合特徴として明示的に取り出します。

皮肉とは要するに「字面と本音のズレ」そのものなので、ズレを取り出す経路をモデル構造に組み込んでしまえ、という発想です。

そしてもうひとつの肝が、EDL(Evidential Deep Learning)による不確実性表現。

ざっくり言うと、「皮肉である / 皮肉でない」のどちらにも倒し切れない曖昧な発話に対して、控えめな確信度を返せるモデル、です。

これ、運用ではめちゃくちゃ強いんですよね。

「自信を持って当てる」モデルと同じくらい、「曖昧なときに曖昧と言える」モデルが価値を持つ。確信度の低い案件だけ人間にエスカレーションする運用が組めるからです。

DBDA-EDL のような不確実性表現を備えたモデルがあれば、「AI が自信を持てる案件は自動処理、自信がない案件は人間オペレーター」というハイブリッド運用が現実的になります。オペレーターの工数を、皮肉や微妙なニュアンスの案件に集中投資できる。

③ 感情 AI として一番伝えたいのは、ここ

ここが、Affectosphere Group が研究室として強調したいポイントです。

「皮肉が読めない AI」を運用するリスクは、誤分類そのものではないと思っています。

本当のリスクは、AI が「自信を持って間違える」ことで、現場の意思決定が静かに歪むこと。 NPS が高く出ている、CSAT が伸びている、ダッシュボード上ではすべて順調 ── でも、解約率はじわじわ上がっていく。原因と結果が分離されたまま、現場は誤った優先度で動き続けます。

これは、精度を上げれば解決する話じゃないんですよ。

たとえば皮肉の判定精度を 80% から 95% に上げても、残り 5% を「自信満々で誤分類」するモデルなら、現場はそれを信じてしまう。精度の問題ではなく、「曖昧さの扱い方」の問題なんです。

私たちの研究室は、感情を「曖昧で多義的なまま扱う」ことを核にしています。人の気持ちは、平均値や多数決で潰せるものじゃないからです。

皮肉は、その「曖昧さ」が言語表現として最も濃く現れる現象です。最も強い感情が、最も穏やかな言葉で表現される ── これを真に受けて潰してしまう AI は、顧客の本当の声を取り逃がします。

「精度・効率・コスト」だけで AI を評価していると、この層は永遠に見えません。感情 AI 視点を導入する価値は、「曖昧さを潰さない設計」を、運用の中に組み込めることだと思っています。

じゃあ、明日から何をするか

リスクだけ書いて終わるのはフェアじゃないので、現場で動かせる打ち手を 3 つ。

月次で 100 件、「ポジティブ判定」のサンプルを人手レビューする。皮肉混入率を測ると、自社感情分析の信頼区間がわかります。
自動返信に「確信度ガード」を入れる。低確信度の案件は必ず人間にエスカレーション。これだけで、SNS に皮肉返信のスクショが流れるリスクが激減します。
KPI に「皮肉サブセットでの再現率」を独立で立てる。総合精度ではなく、皮肉だけを切り出した recall を測ることが、ブランド毀損の先行指標になります。

CX マネージャーの相談に戻ると、「NPS は伸びているのに解約率が上がっている」場合、まず月次サンプルレビューから入るのが現実的です。

締め

皮肉は、最も強い感情が、最も穏やかな言葉で表現される現象です。

だからこそ、皮肉を正しく扱えるかどうかは、AI が「顧客の本当の声」をどこまで聞けているかの試金石になります。

そして、これは技術選定の話であると同時に、感情 AI を経営に組み込むときの哲学の話でもあります。「曖昧さを潰さない AI」を持っているかどうかが、CX の解像度を決める ── と私たちは思っています。

「うちの感情分析、本当に大丈夫?」と気になった方、月次サンプルレビューだけでも始めてみてください。ぞわっとする数字に出会うかもしれません。

では!

参考論文

Keito Inoshita, Shinnosuke Mizuno (2026). World model inspired sarcasm reasoning with large language model agents. Discovery Artificial Intelligence.
Takato Ueno, Keito Inoshita (2025). Dual-Branch Feature Extraction via Discrepancy-Aware Fusion with Evidential Deep Learning for Sarcasm Detection. IEEE IAICT 2025, pp. 345-352.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。

Keito Inoshita, Shinnosuke Mizuno, “World model inspired sarcasm reasoning with large language model agents”, Discovery Artificial Intelligence, 2026. ↩
Takato Ueno, Keito Inoshita, “Dual-Branch Feature Extraction via Discrepancy-Aware Fusion with Evidential Deep Learning for Sarcasm Detection”, IEEE IAICT 2025, pp. 345-352. ↩