訊息平台

AWS 推出 AI 代理偵測新利器 數分鐘揪出故障根源

商傳媒|責任編輯/綜合外電報導

亞馬遜網路服務(AWS)近日推出 Strands Evals SDK,這套軟體開發工具包旨在自動化人工智慧(AI)代理的故障偵測與根本原因分析。此工具可望將開發者診斷問題的時間從數小時大幅縮短至數分鐘,對於需要快速迭代與維護複雜 AI 系統的台灣 AI 開發者與 IT 管理者而言,提供了一項效率利器。

傳統上,當 AI 代理發生故障時,開發者必須手動審查執行軌跡,才能理解問題癥結。例如,一個代理的目標達成率從 85% 下降到 70% 時,要找出具體行為、區分根本原因與表面症狀、判斷修復位置(如系統提示或工具定義),並依影響程度排序,往往需要資深工程師耗費大量時間進行人工檢視。

Strands Evals SDK 的 Detectors 則能自動識別代理執行軌跡中的失敗點,並執行根本原因分析。其輸出內容結構化,包含分類後的故障類型(附帶信心分數)、連接根本原因與下游症狀的因果鏈,以及修復建議。這些建議會依據修復位置進行分類,例如指向系統提示(system prompt)或工具定義(tool definition)的調整。

此偵測流程包含兩個階段,皆由大型語言模型(LLM)驅動。第一階段是故障偵測,它會掃描每次執行中的每個「區段」(span),根據九大類別(如幻覺、錯誤動作、協調錯誤、任務指令不符、執行錯誤、上下文處理錯誤、重複行為、LLM 輸出問題及配置不匹配)來識別故障。第二階段則是根本原因分析,它會追蹤故障之間的因果鏈,區分原因和症狀,並提供具體的修復建議。

Strands Evals SDK 可整合至現有的評估流程中,讓每次測試執行都能自動進行診斷。在持續整合/持續部署(CI/CD)環境中,可以設定「ON_FAILURE」模式,僅當評估結果顯示測試失敗時才啟動診斷,這有助於節省成本。該工具還能與 Amazon CloudWatch 搭配使用,直接從日誌中獲取 OpenTelemetry 追蹤數據進行分析,不僅支援 Strands Agents,也適用於任何將 OpenTelemetry 追蹤導出到 Amazon CloudWatch 的框架,展現其廣泛的適用性。

然而,執行這些偵測功能將會產生 Amazon Bedrock 的推論費用,以及 Amazon CloudWatch Logs 的儲存費用。AWS 建議,對於日常使用,可從中等(MEDIUM)信心水平開始,並優先修復主要(PRIMARY)故障,以最大化效益並減少疊代週期。