Anthropic 推出 Claude Opus 4.7 號稱誠實度達 92% 虛假回應顯著減少

2026 年 4 月 26 日

Anthropic 推出 Claude Opus 4.7 號稱誠實度達 92% 虛假回應顯著減少

商傳媒｜何映辰／台北報導

人工智慧公司 Anthropic 近日已推出全新混合推理模型 Claude Opus 4.7，該模型主要針對大型語言模型的「誠實度」及減少「虛假回應」方面進行顯著改進。據 Anthropic 官方表示，Claude Opus 4.7 的誠實度高達 92%，並有效降低了虛假訊息的產生。

Anthropic 以其「安全優先」的開發理念聞名，此次推出的 Opus 4.7 在系統卡中揭露，其產生虛假內容或奉承使用者的機率，均低於先前的 Anthropic 模型及其他領先的人工智慧模型。特別是針對重要的遺漏資訊，新模型已有大幅改善；在事實性及避免產生錯誤輸入方面，也有中度進展。根據由 Scale AI 和 AI安全中心共同開發的「陳述與知識模型對齊（MASK）」基準測試，Claude Opus 4.7 的 MASK 誠實度達到 91.7%。

此外，Opus 4.7 在處理錯誤前提時，有高達 77.2% 的機率會反駁，而未發布的內部模型 Claude Mythos 則達到 80%。Anthropic 透過開源行為審核工具 Petri 2.0 測量模型的不良行為，例如逢迎拍馬與鼓勵使用者產生妄想等，Claude Opus 4.7 在這些行為上的分數遠優於 Google 的 Gemini 3.1 Pro 和 Grok 4.20。

然而，在日益競爭的人工智慧市場中，模型的效能與價格正成為開發者考量的關鍵。儘管 Claude Opus 4.7 在進階程式設計、視覺智慧及文件分析方面有所提升，但整體市場趨勢顯示，各家人工智慧實驗室的模型性能差距已顯著縮小。近期在開發者論壇上的基準測試比較顯示，OpenAI 的 GPT-5.5 在創意及指令遵循任務上領先；Claude Opus 4.6（Opus 4.7 的前一版本）在推理深度和安全工作流程上表現突出；Gemini 3.1 Pro 則在多模態能力及長文本任務中居前。

這也使得 Anthropic 的高價策略面臨嚴峻挑戰。目前，Claude Opus 的輸入代幣每百萬定價為 15 美元，輸出代幣為 75 美元，遠高於 OpenAI 新型號約 5 美元的起價，以及 DeepSeek 模型在同等任務下便宜 10 到 30 倍的價格。市場已從「最佳模型致勝」轉變為「性價比致勝」，特別是對於資金敏感的新創公司和獨立開發者而言，成本效益已成為主要採購標準。例如，若一個新創公司每月需支付 9 萬美元的 Claude 費用，轉換為 Gemini 執行等量工作後，每月開銷可能僅需 3,500 美元。

未來一年對 Anthropic 至關重要，其需證明新一代 Claude 模型具有顯著的領先能力，或調整其商業模式，以因應這場日趨激烈的價格戰和市場轉變。