Column

A/B テストの「次の手」を AI が自律提案する時代 ── フィールド実験学習エージェントの可能性

約70万患者訪問のフィールド実験データを AI エージェントが自律学習し、次のメッセージ変異体を自動生成。AI 生成の最優秀メッセージはクリックスルー率69.8%を達成し専門家設計を上回った。マーケ・CRM 担当者が「継続的改善ループ」を設計するヒントを読み解く。

2026 / 06 / 03 5 分で読める English version →

フィールド実験データをAIエージェントが学習し次の介入メッセージを自律生成する改善ループの抽象ビジュアル

こんにちは。Affectosphere Group の井下です。

A/B テストをやって、「当たりのパターン」がわかった。でもそこで終わり、という経験がありませんか。

次のアクションを考えるのは人間で、データを見て、仮説を立て直して、また新しいパターンを作る。この「分析 → 仮説 → 実験」のサイクルを、AI が回せるようになったら何が変わるでしょうか。

2026 年 6 月に arXiv で公開された研究（Junjie Luo, Ritu Agarwal, Gordon Gao ら、arXiv:2606.02458）は、まさにこのシナリオを医療の現場で実証しました。約 70 万件の患者訪問データを含むフィールド実験データを AI エージェントが自律学習し、次のメッセージ変異体を自動生成する 2 段階実験フレームワークを構築。AI が生成した最優秀メッセージはクリックスルー率 69.8% を達成し、第 1 段階のトップメッセージを上回りました。

今日の 3 点

価値: A/B テスト結果を AI が学習して「次の介入」を自律設計することで、継続的な改善ループが人手なしで回せる。
重要な知見: 「LLM 単体」ではなく「実験データで学習した LLM」が有効。データなしの LLM 予測は有効な介入を生成できなかった。
応用: メールマーケティング・プッシュ通知・CRM メッセージでの自律改善ループ設計。

① 実験の設計：2 段階で何をしたか

研究の舞台は医療機関の患者エンゲージメントプログラムです。患者に送るリマインダーメッセージの内容を変えることで、クリニック訪問や検査受診の実施率を上げたい、という課題設定です。

第 1 段階では、医療専門家と AI が協調して複数のメッセージ変異体を設計し、約 70 万件の患者訪問データを含む実際のフィールド実験として実施しました。

ここまでは従来の A/B テストと変わりません。違いは次にあります。

第 2 段階では、第 1 段階の実験結果全体（どのメッセージがどれくらいの効果を出したか）を AI エージェントが自律学習・分析し、17 件の新しいメッセージ変異体を自動生成しました。

AI エージェントは第 1 段階のデータから「どういう特性を持つメッセージが効果的か」を学習し、その知見を元に「次のラウンドで試すべきメッセージ」を提案した、という設計です。

② 結果と重要な教訓

AI が生成した 17 件のメッセージのうち、最高のものはクリックスルー率 69.8% を記録しました。これは第 1 段階の専門家・AI 協調設計による最高メッセージを上回る水準です。

ここで「AI はやっぱりすごい」と単純に読むのは、実はこの研究の最も重要な発見を見落とすことになります。

論文が強調しているのは「実験データで学習した AI」と「データなしの LLM」の比較です。

研究チームは、同じ LLM に「フィールド実験データなしで、どんなメッセージが効果的か予測してください」という形でも評価しています。その結果、データなしの LLM は有効な介入を予測できませんでした。

つまり「LLM を使えば A/B テストはもう不要」ではない。むしろ「実際のデータから学習することが AI の強みを引き出す鍵」という発見です。

これは多くのマーケターにとって実践的な示唆になります。「まず実験データを蓄積し、それを AI に学習させて次の手を生成する」というサイクルが重要で、データなしにいきなり AI に最適解を聞いても機能しない。

③ マーケ・CRM 担当者がこれを自社で使うなら

この研究のフレームワークを自社のキャンペーン改善に当てはめると、どういう設計になるでしょうか。

メールマーケティングへの適用

メール件名・本文の A/B テスト結果を AI がラウンドごとに学習し、「次の件名候補 10 件」を自動生成するサイクルを組み込む。従来は「担当者が結果を見て仮説を立て直す」プロセスが必要でしたが、このサイクルを AI が自律で回せます。

部署・担当業務のイメージとしては、メールマーケティング担当または CRM 担当が「ラウンドの設計とデータ確認」だけを行い、「次のバリエーション生成」は AI が担当する、という分業です。

KPI として「改善ループのラウンド数 × コンバージョン率の上昇カーブ」を追うことで、AI による自律改善の速度を可視化できます。

プッシュ通知・受診勧奨への応用

この研究が医療での有効性を示したことは、病院・クリニックのデジタル化推進担当や、ヘルスケアアプリのエンゲージメント担当にとって直接適用できる知見です。

受診リマインダー・予防接種案内・健康診断勧奨などは、ターゲットが明確でコンバージョン（実際に行動する）が測定可能なため、このフレームワークが最も機能しやすい領域のひとつです。

注意点：どれくらいのデータ量が必要か

この研究が使ったのは約 70 万件の患者訪問データという大規模データです。自社で同じスケールのデータがない場合、学習の精度がどう変わるかは別途検証が必要です。

また、「A/B テストのデータ」といっても、測定できているコンバージョンの質（クリックだけか、実際の購買・受診か）によって、AI の学習品質は変わります。浅いコンバージョン指標で学習させると、「クリックは増えるが最終成果は変わらない」という改善ループになりかねない点は注意が必要です。

実験から学ぶ、という AI の使い方

この研究が提示するパラダイムは「AI を予測器として使う」ではなく「AI を実験から学ぶエージェントとして使う」です。

LLM に最初から最適解を出させようとすると機能しない。実験して、データを得て、それを AI が分析して、次の手を生成する。この「実験 × 学習 × 生成」のサイクルを継続的に回すことで、人間だけでは届かなかった改善速度が出てくる。

「A/B テストを終わりにする AI」ではなく「A/B テストをより速く回す AI」という使い方として捉えると、自社での応用イメージが広がるかもしれません。

では！

参考論文

Junjie Luo, Ritu Agarwal, Gordon Gao (2026). Beyond One-shot: AI Agents for Learning in Field Experiments. arXiv preprint.

※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。