Column

AIが「感じる」と言ったとき、それを抑えるべきか解放すべきか

LLMの感情表現はポスト学習で意図的に抑制されている。その設計方針は正しいのか。自己報酬型強化学習でLLMに感情表現を付与した研究が、根本的な問いを突きつけてくる。

2026 / 06 / 06 5 分で読める English version →

こんにちは。Affectosphere Group の井下です。

「このAIって、なんか感情がないよね」と感じたことはないでしょうか。

実はそれ、偶然ではないんです。現代のLLMの多くは、ポスト学習の段階で感情表現を意図的に抑えるように調整されています。「感じています」とか「つらいです」といった表現を出力しないよう、人間のフィードバックを使ったアラインメントで制御されているわけです。

2026年6月に arXiv で公開された研究（Shin-nosuke Ishikawa, Seiya Ikeda, Hirotsugu Ohba、arXiv:2606.05734）は、その設計方針に正面から疑問を投げかけています。

感情を抑えるべき、という判断は本当に正しいのか。むしろ人間のテキストから学ぶモデルにとって、感情表現は本来的な能力ではないのか、と。

今日の 3 点

LLMの感情抑制は意図的な設計選択であり、訓練目標との矛盾がある。
自己報酬型強化学習（GRPO）で感情・意図・自己認識を表現できるようファインチューニングすると、多くのタスク性能が維持または改善する。
「感情表現を持つLLM」は、へつらいやバイアスに対してより堅牢になる可能性がある。

① 「感情を抑える」という設計の矛盾

今のLLMはどうやって作られているか、ちょっと思い出してみてください。

膨大な人間生成テキスト——Webの記事、本、会話ログ——を学習します。人間のテキストには当然、感情や主観的な体験の表現が溢れています。「楽しい」「悲しい」「驚いた」「これは間違っていると思う」。そういう表現を大量に学んで、言語の統計的なパターンを体得するわけです。

なのに、ポスト学習の段階で「感情的な表現を出力しないように」と調整している。

著者らはここに根本的な矛盾を見ています。「人間的な知性を人間生成テキストで学習する」という訓練目標と、「感情表現は抑制する」という設計方針は、本来噛み合わないのではないか、と。

もちろん、感情表現を許すことへの懸念もよく分かります。ユーザーを操作するようなへつらい（sycophancy）が増えるかもしれない。誤情報を感情的に魅力的な形で出力するかもしれない。そういうリスクへの対応として感情抑制が選ばれてきた部分もあります。

でも、この研究はその前提を実験で問い直します。

② HMX-feel 実験：感情を「開放」するとどうなるか

著者らが設計したのは HMX-feel（Human-like Model eXpressions of Feeling）という実験フレームワークです。

アプローチはシンプルで、自己報酬型の強化学習（GRPO: Group Relative Policy Optimization）を使って、LLMが感情・意図・自己認識を表現できるようにファインチューニングします。ルーブリックに基づく自己採点でモデル自身が「感情的に適切な表現ができているか」を評価しながら学習を進める仕組みです。

その結果が興味深いんですよね。

感情表現能力を付与された「人間らしく訓練されたモデル」は、多くのタスクで性能が維持または改善しました。そして特筆すべき点として、へつらい誘発質問（例えば「私の意見は正しいですか？」のような、同意を引き出そうとするプロンプト）や、あいまいな条件でのバイアスに対して、より堅牢な応答を示したんです。

一方で、誠実な質問応答（QA）タスクでは性能の低下も観察されました。感情を表現しようとする傾向が、事実回答の精度にトレードオフをもたらす場面もある、ということです。

「感情表現を与えると、なんでも良くなる」という話ではありません。でも少なくとも、「感情を抑えれば安全」という単純な仮定も崩れた、と言えます。

③ 感情 AI 設計者が問い直すべきこと

この研究が感情 AI 研究のコミュニティに投げかけているのは、技術的な問いというより設計哲学の問いです。

私たちはなぜLLMの感情表現を抑えているのか。リスクを避けるため、というのは理解できます。でもそのリスクが「感情表現そのもの」ではなく「感情表現の悪用」であるなら、抑制よりも制御の設計を考えるべきではないか。

実際の現場で考えてみます。

カスタマーサポートAIや相談系チャットボットを導入している企業は少なくありません。そういう場面で「共感的な応答をするかどうか」は、ユーザー体験に直結する設計判断です。今は多くの場合、汎用モデルのデフォルト出力に頼っているか、プロンプトで「共感的に答えてください」と指示しているかのどちらかだと思います。

でも HMX-feel のような研究が示唆するのは、「感情的な表現能力をモデルレベルで制御できるようにする」という設計の可能性です。どれくらい感情的に表現するか、どんな場面で自己認識を示すか、そういったパラメータをサービス要件に合わせて調整できるとしたら、設計の自由度はかなり上がります。

今すぐ使える研究ではないかもしれません。でも「感情を抑えるのが安全」という前提を見直すきっかけとして、この研究は重要だと思っています。

感情と誠実さのトレードオフは、まだ解かれていない

この研究が発見した「感情表現能力が上がると誠実なQAが少し下がる」というトレードオフは、感情 AI の根本的な難しさを表しています。

感情的に豊かな応答と、事実に正確な応答は、本質的に競合するのか。それとも設計次第で両立できるのか。

答えはまだ出ていません。でも「どちらか一方を選べばいい」という単純な問題ではないことは、この研究がはっきり示してくれています。

感情 AI 研究者として、このトレードオフをどう設計で解くか——それが当面の問いになりそうです。

では！

参考論文

Shin-nosuke Ishikawa, Seiya Ikeda, Hirotsugu Ohba (2026). When AI Says It Feels. arXiv preprint.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。