AWS 推出 AI 代理偵測新利器數分鐘揪出故障根源

2026 年 6 月 16 日

商傳媒｜責任編輯／綜合外電報導

亞馬遜網路服務（AWS）近日推出 Strands Evals SDK，這套軟體開發工具包旨在自動化人工智慧（AI）代理的故障偵測與根本原因分析。此工具可望將開發者診斷問題的時間從數小時大幅縮短至數分鐘，對於需要快速迭代與維護複雜 AI 系統的台灣 AI 開發者與 IT 管理者而言，提供了一項效率利器。

傳統上，當 AI 代理發生故障時，開發者必須手動審查執行軌跡，才能理解問題癥結。例如，一個代理的目標達成率從 85% 下降到 70% 時，要找出具體行為、區分根本原因與表面症狀、判斷修復位置（如系統提示或工具定義），並依影響程度排序，往往需要資深工程師耗費大量時間進行人工檢視。

Strands Evals SDK 的 Detectors 則能自動識別代理執行軌跡中的失敗點，並執行根本原因分析。其輸出內容結構化，包含分類後的故障類型（附帶信心分數）、連接根本原因與下游症狀的因果鏈，以及修復建議。這些建議會依據修復位置進行分類，例如指向系統提示（system prompt）或工具定義（tool definition）的調整。

此偵測流程包含兩個階段，皆由大型語言模型（LLM）驅動。第一階段是故障偵測，它會掃描每次執行中的每個「區段」（span），根據九大類別（如幻覺、錯誤動作、協調錯誤、任務指令不符、執行錯誤、上下文處理錯誤、重複行為、LLM 輸出問題及配置不匹配）來識別故障。第二階段則是根本原因分析，它會追蹤故障之間的因果鏈，區分原因和症狀，並提供具體的修復建議。

Strands Evals SDK 可整合至現有的評估流程中，讓每次測試執行都能自動進行診斷。在持續整合/持續部署（CI/CD）環境中，可以設定「ON_FAILURE」模式，僅當評估結果顯示測試失敗時才啟動診斷，這有助於節省成本。該工具還能與 Amazon CloudWatch 搭配使用，直接從日誌中獲取 OpenTelemetry 追蹤數據進行分析，不僅支援 Strands Agents，也適用於任何將 OpenTelemetry 追蹤導出到 Amazon CloudWatch 的框架，展現其廣泛的適用性。

然而，執行這些偵測功能將會產生 Amazon Bedrock 的推論費用，以及 Amazon CloudWatch Logs 的儲存費用。AWS 建議，對於日常使用，可從中等（MEDIUM）信心水平開始，並優先修復主要（PRIMARY）故障，以最大化效益並減少疊代週期。