訊息平台

Anthropic 推出 Claude Opus 4.7 號稱誠實度達 92% 虛假回應顯著減少

商傳媒|何映辰/台北報導

人工智慧公司 Anthropic 近日已推出全新混合推理模型 Claude Opus 4.7,該模型主要針對大型語言模型的「誠實度」及減少「虛假回應」方面進行顯著改進。據 Anthropic 官方表示,Claude Opus 4.7 的誠實度高達 92%,並有效降低了虛假訊息的產生。

Anthropic 以其「安全優先」的開發理念聞名,此次推出的 Opus 4.7 在系統卡中揭露,其產生虛假內容或奉承使用者的機率,均低於先前的 Anthropic 模型及其他領先的人工智慧模型。特別是針對重要的遺漏資訊,新模型已有大幅改善;在事實性及避免產生錯誤輸入方面,也有中度進展。根據由 Scale AI 和 AI安全中心共同開發的「陳述與知識模型對齊(MASK)」基準測試,Claude Opus 4.7 的 MASK 誠實度達到 91.7%。

此外,Opus 4.7 在處理錯誤前提時,有高達 77.2% 的機率會反駁,而未發布的內部模型 Claude Mythos 則達到 80%。Anthropic 透過開源行為審核工具 Petri 2.0 測量模型的不良行為,例如逢迎拍馬與鼓勵使用者產生妄想等,Claude Opus 4.7 在這些行為上的分數遠優於 Google 的 Gemini 3.1 Pro 和 Grok 4.20。

然而,在日益競爭的人工智慧市場中,模型的效能與價格正成為開發者考量的關鍵。儘管 Claude Opus 4.7 在進階程式設計、視覺智慧及文件分析方面有所提升,但整體市場趨勢顯示,各家人工智慧實驗室的模型性能差距已顯著縮小。近期在開發者論壇上的基準測試比較顯示,OpenAI 的 GPT-5.5 在創意及指令遵循任務上領先;Claude Opus 4.6(Opus 4.7 的前一版本)在推理深度和安全工作流程上表現突出;Gemini 3.1 Pro 則在多模態能力及長文本任務中居前。

這也使得 Anthropic 的高價策略面臨嚴峻挑戰。目前,Claude Opus 的輸入代幣每百萬定價為 15 美元,輸出代幣為 75 美元,遠高於 OpenAI 新型號約 5 美元的起價,以及 DeepSeek 模型在同等任務下便宜 10 到 30 倍的價格。市場已從「最佳模型致勝」轉變為「性價比致勝」,特別是對於資金敏感的新創公司和獨立開發者而言,成本效益已成為主要採購標準。例如,若一個新創公司每月需支付 9 萬美元的 Claude 費用,轉換為 Gemini 執行等量工作後,每月開銷可能僅需 3,500 美元。

未來一年對 Anthropic 至關重要,其需證明新一代 Claude 模型具有顯著的領先能力,或調整其商業模式,以因應這場日趨激烈的價格戰和市場轉變。