Column
録画面接の映像・音声・テキストを AI に解かせたら、性格特性の予測精度が 19% 上がった話
面接官が「感じが良い」と思う候補者と、実際に成果を出す人材は一致しているのか。録画ビデオ面接から Big Five 性格特性を推定する最新研究が、HR 部門のスクリーニング設計を問い直しています。
こんにちは。Affectosphere Group の井下です。
「あの候補者、面接の雰囲気はすごく良かったんですよ。でも入社してみたら、うちのカルチャーに合わなくて…」
採用担当者なら、一度は経験があるのではないでしょうか。
面接は、候補者の「今この瞬間のパフォーマンス」を測っています。 緊張のしやすさ、話し方のクセ、その日の体調。 本来見たいはずの「性格特性」や「認知能力」は、標準的な面接設計では正確に捉えにくい。
これが採用ミスマッチの構造的な原因の一つです。
一方で、多くの HR 部門にはすでに録画面接のインフラがあります。 COVID 以降、オンデマンド型の録画ビデオ面接は急速に普及しました。 でも、その動画データのほとんどは「面接官が見て終わり」で、構造化・定量化されてはいない。
2025 年に arXiv で公開された研究(Kuo-En Hung, Hung-Yue Suen, Shih-Ching Yeh, Hsiang-Wen Wang、arXiv:2606.11930)は、この「見て終わり」のビデオデータから、Big Five 性格特性と認知能力を自動推定するシステムを構築し、公式ベースラインを 19.1% 上回る結果を出しました。
今日はこの研究を、HR 採用担当・HRtech 開発チームの言葉で整理します。
今日の結論を 3 点で
- 価値: 録画面接の映像・音声・テキストを組み合わせた AI は、面接官の印象評価よりも再現性の高い性格・能力アセスメントを実現できる可能性がある。
- 実装: 「凍結(Frozen)モデル」の活用により、自社データでの追加学習なしで既製 AI を組み合わせるだけで性能が出る。これは中小規模の HR 部門でも現実的な選択肢になりえる。
- リスク: 性格特性の推定を採用判断に使うには、公平性・バイアス・透明性の課題がある。技術的な精度だけで走らないことが肝心。
順に書きます。
① 何が「新しい」のか
3 つのモダリティを凍結状態で組み合わせる
この研究のポイントは、「凍結(Frozen)」という考え方にあります。
普通、AI モデルを特定のタスクに使おうとすると、そのタスク用のデータで再学習(ファインチューニング)が必要です。 これには時間もコストもかかるし、何より「タスク専用のラベル付きデータ」が大量に必要になる。
この研究ではその常識を覆しています。
CLIP(画像・表情解析)、Whisper(音声・発話解析)、RoBERTa(テキスト・言語解析)という 3 種類の大規模事前学習済みモデルを、追加学習なし(=凍結状態)で組み合わせ、性格推定に使うわけです。
おのおのの役割はこうなります。
- CLIP: 面接動画のフレームから表情・身体的な特徴を抽出
- Whisper: 音声から発話のパターン(韻律・速度・声質)を解析
- RoBERTa: 音声書き起こしテキストから言語的な特徴を解析
この 3 つの出力を統合するアーキテクチャを設計することで、Big Five 性格特性(開放性・誠実性・外向性・協調性・神経症傾向)と認知能力スコアを推定します。
19.1% という数字
性格特性の予測精度で、公式ベースラインに対して平均 19.1% の改善を達成しています。
この「公式ベースライン」というのは、データセット提供者が出している標準的な比較指標です。 研究用に設計された評価基準を 2 割近く上回るというのは、かなり意味のある改善です。
② 現場への「使える」イメージ
研究結果を、自社でどう活用するかを具体的に考えてみます。
ユースケース 1: 新卒採用の一次スクリーニング
大量の録画面接動画がある新卒採用は、最もフィットするシナリオです。
たとえば年間 1,000 本の録画面接があるとして、全件を面接官が視聴すると、相当なリソースが消費されます。 AI でスクリーニングし、「Big Five 上、この職種に適合しやすいプロファイルと合致する候補者」を優先的に人間が確認する、という流れにできれば、評価工数を大きく削減できます。
KPI 設計の例としては、こういうものが考えられます。
- スクリーニング通過者の 1 年定着率(採用ミスマッチの代理指標)
- 面接官の評価時間(コスト削減指標)
- AI スコアと入社後評価の相関(予測妥当性の確認)
関与部署は採用担当・人事企画・情報システムです。
ユースケース 2: 管理職候補のアセスメント
管理職昇進の候補者評価は、新卒採用よりもハードルが高いですが、可能性はあります。
ポイントは、録画面接というフォーマットを「標準化ツール」として設計することです。 全候補者に同じ構造化質問に答えてもらい、その録画を AI で解析する。 360 度評価やリファレンスチェックと組み合わせて、多面的な証拠の一つとして使う、というアプローチが現実的です。
ユースケース 3: HRtech プロダクトへの組み込み
採用管理システム(ATS)や録画面接プラットフォームを開発・提供している HRtech 企業にとっては、直接の開発インサイトになります。
「凍結モデルを組み合わせる」という設計思想は、自前の大規模モデルを持たない中小規模の開発チームでも実装できる可能性を示しています。 既製の CLIP・Whisper・RoBERTa を API 経由で使い、統合アーキテクチャだけを自社で設計する、というアプローチが考えられます。
③ Big Five という心理学的フレームワークについて
この研究が Big Five(ビッグファイブ)性格特性を採用しているのは、重要なポイントです。
Big Five は、心理学において最も広く検証された性格モデルの一つです。 開放性(Openness)、誠実性(Conscientiousness)、外向性(Extraversion)、協調性(Agreeableness)、神経症傾向(Neuroticism)の 5 次元で人格を記述します。
採用文脈での研究蓄積も厚く、特に誠実性は職務遂行能力との相関が繰り返し報告されています。
つまり、「恣意的に作った指標を AI で測る」のではなく、「心理学的に妥当性が確認されたフレームワークを AI で自動推定する」という設計になっています。 この点は、HR 担当者が社内に導入を提案する際の根拠になります。
リスクと限界: ここを飛ばすと失敗する
技術的な可能性を語るだけでは不誠実なので、リスクも正直に書きます。
公平性とバイアスの問題
表情・声・言語パターンは、文化・民族・性別・年齢によって大きく異なります。 あるグループで学習されたモデルが、別のグループには不利に働く可能性がある。 これはいわゆる「アルゴリズム的バイアス」の問題で、採用 AI では特に慎重に扱わなければなりません。
「精度が高い」だけでは不十分で、「誰にとって公平か」という問いを設計段階で持ち込む必要があります。
性格推定を採用の直接根拠にすることの危険性
AI の性格スコアを採用可否の直接的な根拠に使うのは、現時点では危険です。
モデルの精度が完璧ではない以上、一部の候補者が不当に評価される可能性があります。 また、「AI がそう言ったから」という説明は、候補者に対する説明責任を果たせません。
AI スコアは「追加的な情報源の一つ」として使い、最終判断は複数の人間が行う、という運用設計が前提です。
法的・倫理的な透明性
EU AI Act では、採用など「高リスク」領域への AI 適用には透明性・説明可能性の要件が課されます。 日本でも個人情報保護・雇用機会均等の観点からの規制動向は注目が必要です。
候補者に「AI で性格推定が行われる」ことを明示し、同意を取るプロセスは、最低限の倫理的基準として求められるでしょう。
自社で試すとしたら、どこから始めるか
現実的なファーストステップを 3 つ。
- 現行の録画面接データの棚卸し: 過去の録画データが何件あり、どのフォーマットで保管されているかを整理する。AI 解析の前提は「扱えるデータがあること」。
- 既存ツールとの連携可能性の確認: 使っている ATS や録画面接プラットフォームが API を提供しているかを確認する。研究で使われた CLIP・Whisper・RoBERTa はいずれも公開されており、API 経由での利用が可能。
- パイロット評価の設計: まず「入社済みの社員の録画面接」で後付けに AI スコアを算出し、実際のパフォーマンスとの相関を確認する。本番投入前の内部妥当性検証として有効。
いずれも「今すぐ採用に使う」ではなく、「技術の現実を内部で把握する」ためのステップです。
締め
録画面接は、多くの HR 部門にとってすでにあるインフラです。 「見て終わり」になっていたデータが、AI によって「測れるデータ」になりつつある。
この研究が示したのは、既製の大規模モデルを凍結のまま組み合わせるだけで、相当な性格推定精度が出るという実証です。 追加学習不要、専用データ不要という設計は、HRtech の文脈でのスケーラビリティを大きく高めます。
ただし、技術的な精度と倫理的な正当性は別の話です。 「測れる」と「使っていい」の間には、公平性・透明性・説明責任という大きな問いがあります。
HR の現場でこの技術をどう使うかは、ツール選定の話ではなく、「採用において何を大切にするか」という組織の哲学の問いです。
では!
参考論文
- Kuo-En Hung, Hung-Yue Suen, Shih-Ching Yeh, Hsiang-Wen Wang (2025). Frozen Multimodal Embeddings for Personality and Cognitive Ability Assessment in Asynchronous Video Interviews. arXiv:2606.11930. https://arxiv.org/abs/2606.11930
※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。