Skip to content

Column

録画面接の映像・音声・テキストを AI に解かせたら、性格特性の予測精度が 19% 上がった話

面接官が「感じが良い」と思う候補者と、実際に成果を出す人材は一致しているのか。録画ビデオ面接から Big Five 性格特性を推定する最新研究が、HR 部門のスクリーニング設計を問い直しています。

5 分で読める English version →
録画ビデオ面接の画面に、顔・音声波形・テキストの 3 つのデータストリームが重なるビジュアル

こんにちは。Affectosphere Group の井下です。

「あの候補者、面接の雰囲気はすごく良かったんですよ。でも入社してみたら、うちのカルチャーに合わなくて…」

採用担当者なら、一度は経験があるのではないでしょうか。

面接は、候補者の「今この瞬間のパフォーマンス」を測っています。 緊張のしやすさ、話し方のクセ、その日の体調。 本来見たいはずの「性格特性」や「認知能力」は、標準的な面接設計では正確に捉えにくい。

これが採用ミスマッチの構造的な原因の一つです。

一方で、多くの HR 部門にはすでに録画面接のインフラがあります。 COVID 以降、オンデマンド型の録画ビデオ面接は急速に普及しました。 でも、その動画データのほとんどは「面接官が見て終わり」で、構造化・定量化されてはいない。

2025 年に arXiv で公開された研究(Kuo-En Hung, Hung-Yue Suen, Shih-Ching Yeh, Hsiang-Wen Wang、arXiv:2606.11930)は、この「見て終わり」のビデオデータから、Big Five 性格特性と認知能力を自動推定するシステムを構築し、公式ベースラインを 19.1% 上回る結果を出しました。

今日はこの研究を、HR 採用担当・HRtech 開発チームの言葉で整理します。


今日の結論を 3 点で

  1. 価値: 録画面接の映像・音声・テキストを組み合わせた AI は、面接官の印象評価よりも再現性の高い性格・能力アセスメントを実現できる可能性がある。
  2. 実装: 「凍結(Frozen)モデル」の活用により、自社データでの追加学習なしで既製 AI を組み合わせるだけで性能が出る。これは中小規模の HR 部門でも現実的な選択肢になりえる。
  3. リスク: 性格特性の推定を採用判断に使うには、公平性・バイアス・透明性の課題がある。技術的な精度だけで走らないことが肝心。

順に書きます。


① 何が「新しい」のか

3 つのモダリティを凍結状態で組み合わせる

この研究のポイントは、「凍結(Frozen)」という考え方にあります。

普通、AI モデルを特定のタスクに使おうとすると、そのタスク用のデータで再学習(ファインチューニング)が必要です。 これには時間もコストもかかるし、何より「タスク専用のラベル付きデータ」が大量に必要になる。

この研究ではその常識を覆しています。

CLIP(画像・表情解析)、Whisper(音声・発話解析)、RoBERTa(テキスト・言語解析)という 3 種類の大規模事前学習済みモデルを、追加学習なし(=凍結状態)で組み合わせ、性格推定に使うわけです。

おのおのの役割はこうなります。

  • CLIP: 面接動画のフレームから表情・身体的な特徴を抽出
  • Whisper: 音声から発話のパターン(韻律・速度・声質)を解析
  • RoBERTa: 音声書き起こしテキストから言語的な特徴を解析

この 3 つの出力を統合するアーキテクチャを設計することで、Big Five 性格特性(開放性・誠実性・外向性・協調性・神経症傾向)と認知能力スコアを推定します。

19.1% という数字

性格特性の予測精度で、公式ベースラインに対して平均 19.1% の改善を達成しています。

この「公式ベースライン」というのは、データセット提供者が出している標準的な比較指標です。 研究用に設計された評価基準を 2 割近く上回るというのは、かなり意味のある改善です。


② 現場への「使える」イメージ

研究結果を、自社でどう活用するかを具体的に考えてみます。

ユースケース 1: 新卒採用の一次スクリーニング

大量の録画面接動画がある新卒採用は、最もフィットするシナリオです。

たとえば年間 1,000 本の録画面接があるとして、全件を面接官が視聴すると、相当なリソースが消費されます。 AI でスクリーニングし、「Big Five 上、この職種に適合しやすいプロファイルと合致する候補者」を優先的に人間が確認する、という流れにできれば、評価工数を大きく削減できます。

KPI 設計の例としては、こういうものが考えられます。

  • スクリーニング通過者の 1 年定着率(採用ミスマッチの代理指標)
  • 面接官の評価時間(コスト削減指標)
  • AI スコアと入社後評価の相関(予測妥当性の確認)

関与部署は採用担当・人事企画・情報システムです。

ユースケース 2: 管理職候補のアセスメント

管理職昇進の候補者評価は、新卒採用よりもハードルが高いですが、可能性はあります。

ポイントは、録画面接というフォーマットを「標準化ツール」として設計することです。 全候補者に同じ構造化質問に答えてもらい、その録画を AI で解析する。 360 度評価やリファレンスチェックと組み合わせて、多面的な証拠の一つとして使う、というアプローチが現実的です。

ユースケース 3: HRtech プロダクトへの組み込み

採用管理システム(ATS)や録画面接プラットフォームを開発・提供している HRtech 企業にとっては、直接の開発インサイトになります。

「凍結モデルを組み合わせる」という設計思想は、自前の大規模モデルを持たない中小規模の開発チームでも実装できる可能性を示しています。 既製の CLIP・Whisper・RoBERTa を API 経由で使い、統合アーキテクチャだけを自社で設計する、というアプローチが考えられます。


③ Big Five という心理学的フレームワークについて

この研究が Big Five(ビッグファイブ)性格特性を採用しているのは、重要なポイントです。

Big Five は、心理学において最も広く検証された性格モデルの一つです。 開放性(Openness)、誠実性(Conscientiousness)、外向性(Extraversion)、協調性(Agreeableness)、神経症傾向(Neuroticism)の 5 次元で人格を記述します。

採用文脈での研究蓄積も厚く、特に誠実性は職務遂行能力との相関が繰り返し報告されています。

つまり、「恣意的に作った指標を AI で測る」のではなく、「心理学的に妥当性が確認されたフレームワークを AI で自動推定する」という設計になっています。 この点は、HR 担当者が社内に導入を提案する際の根拠になります。


リスクと限界: ここを飛ばすと失敗する

技術的な可能性を語るだけでは不誠実なので、リスクも正直に書きます。

公平性とバイアスの問題

表情・声・言語パターンは、文化・民族・性別・年齢によって大きく異なります。 あるグループで学習されたモデルが、別のグループには不利に働く可能性がある。 これはいわゆる「アルゴリズム的バイアス」の問題で、採用 AI では特に慎重に扱わなければなりません。

「精度が高い」だけでは不十分で、「誰にとって公平か」という問いを設計段階で持ち込む必要があります。

性格推定を採用の直接根拠にすることの危険性

AI の性格スコアを採用可否の直接的な根拠に使うのは、現時点では危険です。

モデルの精度が完璧ではない以上、一部の候補者が不当に評価される可能性があります。 また、「AI がそう言ったから」という説明は、候補者に対する説明責任を果たせません。

AI スコアは「追加的な情報源の一つ」として使い、最終判断は複数の人間が行う、という運用設計が前提です。

法的・倫理的な透明性

EU AI Act では、採用など「高リスク」領域への AI 適用には透明性・説明可能性の要件が課されます。 日本でも個人情報保護・雇用機会均等の観点からの規制動向は注目が必要です。

候補者に「AI で性格推定が行われる」ことを明示し、同意を取るプロセスは、最低限の倫理的基準として求められるでしょう。


自社で試すとしたら、どこから始めるか

現実的なファーストステップを 3 つ。

  • 現行の録画面接データの棚卸し: 過去の録画データが何件あり、どのフォーマットで保管されているかを整理する。AI 解析の前提は「扱えるデータがあること」。
  • 既存ツールとの連携可能性の確認: 使っている ATS や録画面接プラットフォームが API を提供しているかを確認する。研究で使われた CLIP・Whisper・RoBERTa はいずれも公開されており、API 経由での利用が可能。
  • パイロット評価の設計: まず「入社済みの社員の録画面接」で後付けに AI スコアを算出し、実際のパフォーマンスとの相関を確認する。本番投入前の内部妥当性検証として有効。

いずれも「今すぐ採用に使う」ではなく、「技術の現実を内部で把握する」ためのステップです。


締め

録画面接は、多くの HR 部門にとってすでにあるインフラです。 「見て終わり」になっていたデータが、AI によって「測れるデータ」になりつつある。

この研究が示したのは、既製の大規模モデルを凍結のまま組み合わせるだけで、相当な性格推定精度が出るという実証です。 追加学習不要、専用データ不要という設計は、HRtech の文脈でのスケーラビリティを大きく高めます。

ただし、技術的な精度と倫理的な正当性は別の話です。 「測れる」と「使っていい」の間には、公平性・透明性・説明責任という大きな問いがあります。

HR の現場でこの技術をどう使うかは、ツール選定の話ではなく、「採用において何を大切にするか」という組織の哲学の問いです。

では!


参考論文

  1. Kuo-En Hung, Hung-Yue Suen, Shih-Ching Yeh, Hsiang-Wen Wang (2025). Frozen Multimodal Embeddings for Personality and Cognitive Ability Assessment in Asynchronous Video Interviews. arXiv:2606.11930. https://arxiv.org/abs/2606.11930

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。