Column
A/B テストの「次の手」を AI が自律提案する時代 ── フィールド実験学習エージェントの可能性
約70万患者訪問のフィールド実験データを AI エージェントが自律学習し、次のメッセージ変異体を自動生成。AI 生成の最優秀メッセージはクリックスルー率69.8%を達成し専門家設計を上回った。マーケ・CRM 担当者が「継続的改善ループ」を設計するヒントを読み解く。
こんにちは。Affectosphere Group の井下です。
A/B テストをやって、「当たりのパターン」がわかった。でもそこで終わり、という経験がありませんか。
次のアクションを考えるのは人間で、データを見て、仮説を立て直して、また新しいパターンを作る。この「分析 → 仮説 → 実験」のサイクルを、AI が回せるようになったら何が変わるでしょうか。
2026 年 6 月に arXiv で公開された研究(Junjie Luo, Ritu Agarwal, Gordon Gao ら、arXiv:2606.02458)は、まさにこのシナリオを医療の現場で実証しました。約 70 万件の患者訪問データを含むフィールド実験データを AI エージェントが自律学習し、次のメッセージ変異体を自動生成する 2 段階実験フレームワークを構築。AI が生成した最優秀メッセージはクリックスルー率 69.8% を達成し、第 1 段階のトップメッセージを上回りました。
今日の 3 点
- 価値: A/B テスト結果を AI が学習して「次の介入」を自律設計することで、継続的な改善ループが人手なしで回せる。
- 重要な知見: 「LLM 単体」ではなく「実験データで学習した LLM」が有効。データなしの LLM 予測は有効な介入を生成できなかった。
- 応用: メールマーケティング・プッシュ通知・CRM メッセージでの自律改善ループ設計。
① 実験の設計:2 段階で何をしたか
研究の舞台は医療機関の患者エンゲージメントプログラムです。患者に送るリマインダーメッセージの内容を変えることで、クリニック訪問や検査受診の実施率を上げたい、という課題設定です。
第 1 段階では、医療専門家と AI が協調して複数のメッセージ変異体を設計し、約 70 万件の患者訪問データを含む実際のフィールド実験として実施しました。
ここまでは従来の A/B テストと変わりません。違いは次にあります。
第 2 段階では、第 1 段階の実験結果全体(どのメッセージがどれくらいの効果を出したか)を AI エージェントが自律学習・分析し、17 件の新しいメッセージ変異体を自動生成しました。
AI エージェントは第 1 段階のデータから「どういう特性を持つメッセージが効果的か」を学習し、その知見を元に「次のラウンドで試すべきメッセージ」を提案した、という設計です。
② 結果と重要な教訓
AI が生成した 17 件のメッセージのうち、最高のものはクリックスルー率 69.8% を記録しました。これは第 1 段階の専門家・AI 協調設計による最高メッセージを上回る水準です。
ここで「AI はやっぱりすごい」と単純に読むのは、実はこの研究の最も重要な発見を見落とすことになります。
論文が強調しているのは「実験データで学習した AI」と「データなしの LLM」の比較です。
研究チームは、同じ LLM に「フィールド実験データなしで、どんなメッセージが効果的か予測してください」という形でも評価しています。その結果、データなしの LLM は有効な介入を予測できませんでした。
つまり「LLM を使えば A/B テストはもう不要」ではない。むしろ「実際のデータから学習することが AI の強みを引き出す鍵」という発見です。
これは多くのマーケターにとって実践的な示唆になります。「まず実験データを蓄積し、それを AI に学習させて次の手を生成する」というサイクルが重要で、データなしにいきなり AI に最適解を聞いても機能しない。
③ マーケ・CRM 担当者がこれを自社で使うなら
この研究のフレームワークを自社のキャンペーン改善に当てはめると、どういう設計になるでしょうか。
メールマーケティングへの適用
メール件名・本文の A/B テスト結果を AI がラウンドごとに学習し、「次の件名候補 10 件」を自動生成するサイクルを組み込む。従来は「担当者が結果を見て仮説を立て直す」プロセスが必要でしたが、このサイクルを AI が自律で回せます。
部署・担当業務のイメージとしては、メールマーケティング担当または CRM 担当が「ラウンドの設計とデータ確認」だけを行い、「次のバリエーション生成」は AI が担当する、という分業です。
KPI として「改善ループのラウンド数 × コンバージョン率の上昇カーブ」を追うことで、AI による自律改善の速度を可視化できます。
プッシュ通知・受診勧奨への応用
この研究が医療での有効性を示したことは、病院・クリニックのデジタル化推進担当や、ヘルスケアアプリのエンゲージメント担当にとって直接適用できる知見です。
受診リマインダー・予防接種案内・健康診断勧奨などは、ターゲットが明確でコンバージョン(実際に行動する)が測定可能なため、このフレームワークが最も機能しやすい領域のひとつです。
注意点:どれくらいのデータ量が必要か
この研究が使ったのは約 70 万件の患者訪問データという大規模データです。自社で同じスケールのデータがない場合、学習の精度がどう変わるかは別途検証が必要です。
また、「A/B テストのデータ」といっても、測定できているコンバージョンの質(クリックだけか、実際の購買・受診か)によって、AI の学習品質は変わります。浅いコンバージョン指標で学習させると、「クリックは増えるが最終成果は変わらない」という改善ループになりかねない点は注意が必要です。
実験から学ぶ、という AI の使い方
この研究が提示するパラダイムは「AI を予測器として使う」ではなく「AI を実験から学ぶエージェントとして使う」です。
LLM に最初から最適解を出させようとすると機能しない。実験して、データを得て、それを AI が分析して、次の手を生成する。この「実験 × 学習 × 生成」のサイクルを継続的に回すことで、人間だけでは届かなかった改善速度が出てくる。
「A/B テストを終わりにする AI」ではなく「A/B テストをより速く回す AI」という使い方として捉えると、自社での応用イメージが広がるかもしれません。
では!
参考論文
- Junjie Luo, Ritu Agarwal, Gordon Gao (2026). Beyond One-shot: AI Agents for Learning in Field Experiments. arXiv preprint.
※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。