Column
AIエージェントの失敗は「計画」と「実行」のどちらのせいか、分けて測れるか?
LLMエージェントが業務で失敗したとき、計画が悪かったのか実行が悪かったのかを区別できない——そのブラックボックスを壊す診断ベンチマーク APB の概念と、業務AI選定への応用を考える。
こんにちは。Affectosphere Group の井下です。
「このLLMエージェント、うまく動かなかった」——そう感じたとき、あなたは何が原因だったと説明しますか?
計画が間違っていた? それともツールの使い方が悪かった? モデルの性能の問題? タスクの複雑さの問題?
この問いに答えられないまま「とりあえず別のモデルを試してみる」を繰り返すのは、かなり非効率です。業務に組み込むかどうかの判断も、根拠なく進める羽目になる。
2026年6月に arXiv で公開された研究(Haoyu Sun, Wenxuan Wang, Mingyang Song ら、arXiv:2606.04874)は、その問いに体系的に答えるための診断ベンチマーク APB(Agent Planning Benchmark)を提案しています。
今日の 3 点
- 現行のエージェント評価は「計画」と「実行」を分けて測れておらず、失敗の根因が不明のまま。
- APB は 22 ドメイン・4,209 件の事例で 5 設定(全体計画・段階的計画・余計ツール・壊れたツール・解けないタスク)を評価する診断フレームワーク。
- 12 モデルの評価結果から、長期計画・ツールノイズ・拒否判断に系統的な弱点が判明した。
① なぜ「計画」と「実行」を分けて測ることが重要か
LLMエージェントの評価は難しい問題です。
エージェントが最終タスクを達成できなかったとき、その原因は複数ある可能性があります。
- 最初の計画ステップが間違っていた(目標を誤解した、手順を間違えた)
- 計画はあっていたが、個々のステップで使うツールの選択や実行が失敗した
- 計画中に予期しないエラーが起きて、対応できなかった
- そもそもタスクが解けないのに、解けると判断して走り出した
今の多くのエージェント評価は「最終的に達成できたか」だけを測ります。これだと、失敗したときに「なぜ失敗したか」が全く分かりません。モデルを変えても同じ理由で失敗するかもしれないのに、評価指標がそれを教えてくれない。
APB はこの問題に正面から向き合います。「計画能力」に絞って、複数の設定から多角的に測定する、という設計思想です。
② APB の 5 設定と発見された弱点
APB が測るのは 22 ドメイン、4,209 件のマルチモーダル事例にわたる 5 つの設定です。
全体計画(Global Planning)は、タスク全体の達成に必要な手順をどれだけ正確に立てられるかを測ります。段階的計画(Step-wise Planning)は、各ステップを順に実行しながら計画を進める能力を評価します。
残りの 3 設定はロバストネス(頑健性)の評価です。余計なツール設定(Tool Distraction)では、使う必要のないツールがリストに混じっている状況でどれだけ判断を乱されるかを測ります。壊れたツール(Broken Tool)では、正常に動かないツールが含まれる環境での対処能力を評価します。解けないタスク(Unsolvable Task)では、実はそのタスクは完了できないという状況を正しく認識して拒否できるかを評価します。
12 のモデルを評価した結果、いくつかの系統的な弱点が明確になりました。
長期の計画を要するタスクでは多くのモデルが大幅に性能を落とします。ステップ数が増えると一貫性を保てなくなる。余計なツールや壊れたツールがある環境では、ツールノイズに引きずられて判断が乱れるモデルが多い。そして「解けないタスクを解けないと認識して拒否する」能力は、ほぼすべてのモデルで最も苦手な設定でした。
③ 業務AI選定への応用:PoC前に使える診断ツールとして
この研究が持つ実用的な意義は「業務にエージェントを導入する前に、その計画能力を定量的に把握できる」という点です。
現在の業務AI導入の現場では、「とりあえずPoC」というアプローチが多いと思います。実際のタスクで動かしてみて、うまくいかなければ原因を考える。でもPoCは時間もコストもかかります。そしてPoCが失敗しても、「どこが計画能力の問題だったか」が分からないまま終わることも少なくない。
APB 的な診断フレームワークを持っていれば、PoC の前に「このモデルは長期計画に弱い」「ツールノイズへの耐性が低い」という客観的な評価を元に、候補モデルを絞り込める。コンサルタントや情報システム部門が「どのモデルを自社のワークフローに使うか」を判断する際に、外部指標として機能します。
業務に応じた「計画能力の要件」を事前に定義することも可能になります。例えば:
- 短期・単純タスクのみなら全体計画スコアより段階的計画スコアを重視する
- ツールの信頼性が低い環境ならロバストネス設定を重視する
- 「解けないと分かったら止まれる」ことが重要な業務なら拒否判断スコアを重視する
APBのスコアを参照しながらこういった要件整理ができると、エージェント選定の議論がかなり具体化します。
「計画能力を測る言葉」を持つことの価値
LLMエージェントに関する議論は、まだ「なんとなく使えた・使えなかった」レベルで止まっていることが多いです。
「このモデルはツールノイズに弱い」「長期計画で一貫性が落ちる」という具体的な言葉で問題を指摘できるようになると、モデル選定も、ワークフロー設計も、ずっとクリアになる。
APB はその言語化のための道具です。研究コミュニティが共通の診断基盤を持つことで、「エージェントの計画能力の改善」が漠然としたゴールではなく測定可能な課題になっていきます。
業務AI導入を検討しているチームが APB のような診断フレームワークを参照する文化が広まれば、PoC失敗率と導入後の挫折率は確実に下がると思っています。
では!
参考論文
- Haoyu Sun, Wenxuan Wang, Mingyang Song, Jujie He, Weinan Zhang, Yang Liu, Yang Yang, Yu Cheng (2026). Agent Planning Benchmark: A Diagnostic Framework for Planning Capabilities in LLM Agents. arXiv preprint.
※ 本記事は一部 AI により執筆されており、間違った情報が含まれる恐れがあります。