『スタンフォード大学 HAI – AI Index 2026 レポートから読み解く』②：AIエージェントが「3回に1回タスクを完了できない」時代に、企業はどう備えるべきか

2026年5月20日

鈴木浩之 Workato Japan Field CTO

能力は急進化しているのに、なぜエージェントは今も一定の割合でタスクを完了できないのか。その構造的な理由と、それでも安全に前進するための考え方を、データとともに整理します。

「AIエージェントは構造化されたベンチマーク上で、約3回に1回タスクを完了できない」—これは批判ではなく、Stanford HAI – AI Index Report 2026が記録した現在地です。しかし同時に、このレポートはAIエージェントの能力が過去1年で劇的に向上したことも示しています。この「急進化と不完全さの共存」こそ、今のAI活用において最も正確に理解すべき現実ではないでしょうか。

第1回では、グローバルのAI採用率88%（Asia-Pacific 82%）に対し、エージェント型AI（Agentic AI）の実業務活用がほぼすべての機能で一桁台にとどまるというギャップをお伝えしました。今回はその「なぜ一桁台のままなのか」という問いの核心に踏み込みます。

答えは単純ではありませんが、データは明確な方向を指しています。問題はAIエージェントの能力不足だけではなく、それを安全に・継続的に動かす「仕組み」の不在にある — そのように読み取ることができます。

「驚くほど賢く、一定の割合でタスクを完了できない」— ジャギーフロンティアの現実

レポートが繰り返し使う表現があります。「Jagged Frontier（ジャギーフロンティア）」— つまり、AIの能力の境界線は滑らかな直線ではなく、ギザギザだということです。

具体例が印象的です。同レポートは「Gemini Deep Thinkは国際数学オリンピックで金メダルを獲得した。しかしトップモデルでもアナログ時計を正確に読めるのは50.1%に過ぎない」と記しています（p.8 / Key Findings #4）博士号レベルの科学問題には人間を超えながら、小学生が当然できることができない—これがAIの現在地です。

「AIエージェントは2025年に質問への回答から実際のタスク完了へと進化した。しかし構造化されたベンチマークでは依然として約3回に1回の割合でタスクを完了できない」

p.71（Chapter 2 Chapter Highlights #9）

この「約3回に1回タスクを完了できない」という現実は、単なる技術的な未熟さではありません。マルチステップのタスク、複数システムをまたぐ操作、予測困難な環境変化—こうした要素が重なるほど、エラーは連鎖しやすくなります。業務の自動化において「99%うまくいく」と「1%に重大なミスが起きる」が同時に成立する可能性があることを、常に念頭に置く必要があります。

ベンチマークが示す「急進化」と「残差」

AIエージェントの能力向上は数字でも鮮明です。主要ベンチマークの最新スコアを見ると、1〜2年前との差は驚くほど大きくなっています。ただし、それでもなお「残差」があることも確認できます。

出典：Stanford HAI – AI Index Report 2026 — p.111–115（Chapter 2, Section 2.6 AI Agents）/ 各ベンチマークリーダーボード 2026年初頭時点

注目していただきたいのは「τ-bench」です。このベンチマークは、小売や航空業界のデータベース、ポリシー制約、マルチターンの会話という現実業務に近い設計になっています。（p.115 / Ch.2 Section 2.6）そこでのスコアが70%台にとどまっているという事実は、「制御された環境では高性能でも、現実のビジネス文脈では依然として課題が残る」ことを示唆しています。

なぜ「現実の業務」ではタスクを完了できないケースが生まれるのか

レポートは「3回に1回タスクを完了できない」理由を一箇所で体系的に分析しているわけではありません。しかし、複数の章にわたる観察を読み解くと、共通する構造的な背景が浮かび上がってきます。以下は、筆者がレポートの記述から読み取った3つの要因です。

見落としがちなリスク

同レポートは「責任あるAI（RAI）の整備が能力の向上ペースに追いついていない」と指摘しています。記録されたAIインシデントは2024年の233件から2025年には362件へと増加し、さらに「安全性の改善が精度を低下させるなど、一つのRAI指標の改善が別の指標を悪化させる」という研究知見も紹介されています。（p.9 / Key Findings #6）能力と安全性をバランスよく整備することの難しさが、数字に現れています。

それでも前進するために：安全な展開を支える3つの考え方

タスクを完了できないケースがあるからといって、AIエージェントを使わない選択は現実的ではないでしょう。競合がAIエージェント活用を進める中で、様子見を続けることのリスクもあります。重要なのは「常に完璧に完了できるAIエージェント」を追い求めることではなく、「タスクを完了できない場合でも安全な仕組みの中で運用できるAIエージェント」を設計することではないでしょうか。

セキュリティ・ガバナンスを最初から設計に組み込む

マッキンゼーの調査をもとにレポートが整理したデータによると、エージェント型AI（Agentic AI）のスケール展開を阻む最大の壁は「セキュリティとリスクへの懸念（62%）」です。（p.143 / Ch.3 Figure 3.3.10）注目すべきは、「経営層のサポート不足」が9%と低い点です。つまり経営意志はあっても、現場レベルでの安全な実装手段が整っていないことが、最大のボトルネックになっていると考えられます。

ガバナンスは後付けでは難しくなります。どのAIエージェントが何のツールにアクセスできるか、何が起きたときに人間に制御を戻すか—こうした設計を最初から組み込むことが、スケールへの最短経路になります。
Human-in-the-loop：判断を人間に戻すポイントを設ける

レポートは、現在のAIベンチマークの多くが「人間の関与なしにAI単独で評価される」設計になっており、研究者の間で「人間とAIが協働でタスクを解く『センター評価』を採用すべき」という議論が高まっていると紹介しています。（p.72 / Ch.2 Section 2.1）現実の業務でも同様のことが言えます。「AIエージェントが苦手な部分」は人間が担う設計が、今の段階では最も堅実なアプローチでしょう。
責任あるAI（RAI）の整備がROIに直結する

RAIポリシーを持つ組織の割合は、2024年の76%から2025年には89%へと上昇しています。そしてRAIポリシーを導入した組織の多くが、業務効率の改善（36%）、顧客信頼の向上（30%）、インシデント件数の減少（25%）といった具体的な成果を報告しています。（p.144 / Ch.3 Figure 3.3.8）ガバナンス整備は「コスト」ではなく「投資」として位置づけられるデータが出てきています。

Asia-Pacificの現在地（p.140 / Ch.3 Figure 3.3.1）

マッキンゼーの調査によると、責任あるAI（RAI）の成熟度をグローバルで比較した場合、Asia-Pacific（中国除く・インド含む）は2024年の2.2から2025年には2.5へと改善しており、全地域で最も高い上昇幅を示しています。4段階評価の「統合フェーズ（Level 2）」から「実装完了フェーズ（Level 3）」に向けて前進中です。日本を含む同地域での取り組みが加速していることは、心強い変化と言えるでしょう。

RAI成熟度スコア（地域別）2024→2025 — マッキンゼー調査 2025 / Stanford HAI – AI Index Report 2026 p.140

ITリーダーへの示唆：「完璧を待つ」より「安全に試す」

レポートが描く全体像を踏まえると、今の局面でITリーダーに求められる判断軸は比較的明確に見えてきます。

エージェントの能力は、この1〜2年で劇的に向上しました。OSWorldでの精度は1〜12%から66%超へ、WebArenaでは15%から74%超へ——いずれも人間の水準に迫りつつあります。この勢いは今後も続く可能性が高いでしょう。

一方で、「3回に1回の失敗」「判断業務での限界」「ガバナンス不足によるインシデント増加」という現実も直視する必要があります。この二つの事実は矛盾しているのではなく、「どのような仕組みの中でエージェントを動かすか」が最も重要な問いであることを示しているのだと思われます。

「AI技術の進歩は、評価・ガバナンス・採用のフレームワークよりも速く進んでいる」

p.68（Chapter 2 Introduction)

複数のAIツールを導入しただけでは、このギャップは埋まりません。AIエージェントが複数のシステムをまたいで安全に動き、タスクを完了できない場合に人間へ適切にエスカレーションし、その過程がすべて監査可能である—そうした「オーケストレーション基盤」の設計が、今まさにITリーダーの検討課題になっているのではないでしょうか。

Workatoが提供するエージェント型AI（Agentic AI）のオーケストレーション基盤は、こうした課題に対応するために設計されています。セキュリティ・ガバナンス・Human-in-the-loopを最初から組み込んだ設計で、「安全に試す」ことを支援します。

能力は急進化しているのに、なぜエージェントは今も一定の割合でタスクを完了できないのか。 その構造的な理由と、それでも安全に前進するための考え方を、データとともに整理します。

「驚くほど賢く、一定の割合でタスクを完了できない」— ジャギーフロンティアの現実

ベンチマークが示す「急進化」と「残差」

なぜ「現実の業務」ではタスクを完了できないケースが生まれるのか

見落としがちなリスク

それでも前進するために：安全な展開を支える3つの考え方

Asia-Pacificの現在地（p.140 / Ch.3 Figure 3.3.1）

ITリーダーへの示唆：「完璧を待つ」より「安全に試す」

『スタンフォード大学HAI – AI Index 2026 レポートから読み解く』シリーズ

Related Articles:

Enterprise AI Gatewayとは？WorkatoがAIエージェントをどのように統制するのか

WorkatoがAMD・Intel・NVIDIAと初のMLPerfエンタープライズAgentic ベンチマークを共同構築

エンタープライズAIエージェントが実行で失敗する理由と解決策

能力は急進化しているのに、なぜエージェントは今も一定の割合でタスクを完了できないのか。その構造的な理由と、それでも安全に前進するための考え方を、データとともに整理します。