Column

画像と言葉を「同じ言語」で比べる——マルチモーダル感情分析の新戦略

テキストと画像を組み合わせて感情を読み取るとき、AIは実は「別の言語で会話している」状態に陥りがちです。それを解消した研究が、感情分析のベンチマークで最先端を更新しました。

2026 / 06 / 10 5 分で読める English version →

テキストと画像が統一された言語空間に収束していくフラットイラスト。左に文字ブロック、右に写真フレーム、中央で共通の「言語ノード」として統合される

こんにちは。Affectosphere Group の井下です。

感情を AI に読み取ってもらうとき、「テキストだけ」より「テキスト＋画像」の方が精度が上がりそう、と直感的に思いますよね。

でも実際のシステムを作ってみると、画像を加えても誤差がほとんど改善しないことがあります。むしろ、テキスト単体のモデルに負けるケースさえ出てきます。

「なぜマルチモーダルなのに、モノモーダルより弱くなるのか」——感情 AI の研究者なら一度は直面する問いです。

2026年6月に arXiv で公開された研究（Baode Wang, Ziming Wang, Huacan Wang, Ronghao Chen, Biao Wu、arXiv:2606.09148）は、この問いに正面から答えました。原因は「モダリティ間の表現のズレ」であり、それを明示的に揃えることで、複数のベンチマークで最先端の性能を達成しています。

今日はこの研究を、感情 AI の実装に関わる方々向けに整理します。

今日の 3 点

なぜマルチモーダルが失敗するか: テキストと画像が「別の言語」で表現されているのが根本原因。
「共通言語空間」への変換: 視覚言語モデルで画像をテキスト記述に変換し、表現を揃える戦略。
ノイズ耐性の仕組み: セマンティックトークン選択と均一性正則化で、意味のある特徴だけを使う。

① なぜマルチモーダルが意外と難しいのか

感情 AI の文脈で「マルチモーダル」というとき、大抵はこういう構成を取ります。

テキスト側は BERT や RoBERTa のような言語モデルでエンコードする。画像側は ViT や ResNet のような視覚モデルでエンコードする。そして 2 つのベクトルを何らかの方法で組み合わせて感情を予測する。

この構成の問題は、2 つのエンコーダーが「独立して学習されている」点にあります。

テキストの感情表現と視覚的な感情表現は、それぞれのエンコーダーで全く異なる数値空間に変換されます。「悲しい」という言葉の数値表現と、泣き顔の画像の数値表現は、同じ感情を指しているのに全く違うベクトル空間に存在している状態です。

これが「表現のズレ（representation misalignment）」と呼ばれる問題です。

2 つの情報を足し合わせようとしても、単位が揃っていなければ意味のある統合はできません。融合の仕方を工夫することよりも、まず表現を揃えることの方が重要だ——これが今回の研究の出発点です。

② 解決策: 画像を「言葉で語り直す」

研究チームが取った戦略は、シンプルかつ根本的なものです。

画像を数値として処理するのをやめ、視覚言語モデル（VLM）を使って画像をテキスト記述に変換する、というアプローチです。

たとえば「笑顔の人物が明るい光の中にいる写真」があったとすると、VLM がその画像を「明るく開けた空間、笑顔の表情、くつろいだ雰囲気」というような自然言語に変換します。

こうすることで、テキストの感情情報も画像の感情情報も、どちらも「言語空間」という共通の土俵に乗ります。元のテキストと VLM が生成した画像記述をトークンレベルで連結して、RoBERTa に入力として渡すわけです。

「画像を言語で語り直す」という発想は、2 つの世界を無理やり足し合わせるのではなく、片方を相手の言語に翻訳するという戦略です。翻訳が正確であれば、2 つの情報は自然に整合します。

③ ノイズへの対処: 何を使って、何を使わないか

ただし、テキストへの変換だけでは十分ではありません。

VLM の生成する記述は完璧ではなく、感情とは無関係な情報が混入することがあります。また、バッチ学習においては、複数のサンプルの特徴表現が互いに似すぎてしまう「特徴崩壊」という問題が起きることがあります。

これらに対応するため、研究では 2 つの補助的な仕組みが導入されました。

一つ目は「セマンティックトークン選択（Top-K Token Selection）」です。すべてのトークンを均等に使うのではなく、感情予測に重要なトークンを自動的に選んで使います。スコアリングネットワークが各トークンの重要度を計算し、上位 K 件だけを平均プーリングして感情推論に使います。ノイズの多い情報を薄め、感情的に意味のある表現に集中できる仕組みです。

二つ目は「バッチレベルの均一性正則化（Batch-Level Uniformity Regularization）」です。同一バッチ内のサンプル間でベクトルが似すぎないよう、コサイン類似度にペナルティをかけます。これによって特徴空間が偏らず、多様な感情の違いを保持したまま学習が進みます。

最終的な損失関数はクロスエントロピー損失と均一性正則化の和になっていて、λ で正則化の強さを調整する設計です。

実験結果: ベンチマークで何を示したか

実験は MSED と MVSA-Single の 2 つのデータセットで行われています。

MSED データセット（マルチモーダル感情認識）では、感情分析の F1 スコアが 89.46%（Precision 89.57%、Recall 89.34%）、感情認識の F1 スコアが 87.09%（Precision 87.60%、Recall 86.58%）を達成しています。

MVSA-Single データセット（マルチモーダル感情分析）では Accuracy 82.3%、F1 スコア 81.8% という結果です。

どちらも既存のマルチモーダルベースラインを上回る数字です。

特徴的なのは、提案手法の優位性が「融合アーキテクチャの複雑化」ではなく「表現の整合」から来ている点です。複雑なクロスアテンション機構などを使わなくても、共通言語空間への変換とノイズ除去だけでここまで到達できることを示しています。

感情 AI 開発者への示唆

この研究が示していることは、感情 AI 開発における一つの原則です。

複数のモダリティを組み合わせるとき、「どう融合するか」より「揃えてから融合するか」の方が重要なことがある。表現空間のズレが根本にある場合、それを解消せずにいくら融合を工夫しても性能は伸びません。

視覚言語モデルの性能が上がってきた今、「画像を言語として扱う」というアプローチは以前より現実的になっています。感情情報が文字と画像の両方に乗っているサービス——たとえば SNS の投稿分析、接客ログの感情解析、医療相談チャットなど——では、このフレームワークの考え方が直接応用できるかもしれません。

「マルチモーダルを試したけど効果が出なかった」という経験のある方は、融合の前段階、つまり表現の整合から見直してみる価値があります。

では！

参考論文

Baode Wang, Ziming Wang, Huacan Wang, Ronghao Chen, Biao Wu (2026). Explicit Representation Alignment for Multimodal Sentiment Analysis. arXiv preprint arXiv:2606.09148.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。