代碼生成進入零錯誤時代?Claude Sonnet 4.5登場 準確率再創紀錄

▲▼             。(圖/Anthropicai)

▲Claude Sonnet 4.5 。(圖/Anthropicai)

記者吳立言/綜合報導

人工智慧公司 Anthropic 29 日正式推出新一代旗艦模型 Claude Sonnet 4.5,並強調其在編碼領域的突破性表現,直指「全球最佳 AI 編碼模型」定位。此舉不僅被視為對 OpenAI GPT-5 與 Google Gemini 2.5 Pro 的正面挑戰,同時也代表著 AI 代理技術加速進入實用階段。

[廣告] 請繼續往下閱讀.

在最新公開的基準測試中,Claude Sonnet 4.5 在 SWE-bench Verified 編碼測試中取得領先成績,能連續執行超過 30 小時自主任務,大幅超越前代 Claude Opus 4 的 7 小時上限。這意味著該模型可處理跨代碼庫、多步驟的複雜專案,實現接近「生產就緒」的應用層級。

官方數據顯示,Claude Sonnet 4.5 在代碼編輯的錯誤率降至 0%,工具使用成功率顯著提升,並在 OSWorld 基準中取得 61.4% 分數,較四個月前的 Sonnet 4 提升近兩成。同時,它在金融、醫學、法律與 STEM 領域的專業推理能力也全面增強。

除了性能升級,Anthropic 也在產品功能上做出優化:

Claude Code 新增「檢查點」功能,支援進度保存與回滾。

[廣告] 請繼續往下閱讀..

API 新增上下文編輯與記憶工具,支援長時序任務。

Claude 應用程式整合代碼執行與文件生成,支援表格、簡報等產出。

推出 Claude Agent SDK,協助開發者以自然語言打造自訂 AI 代理,並能管理記憶、權限與子代理協作。

該 SDK 已與 Claude for Chrome 擴充套件串接,同時 GitHub Copilot、Replit Agent 及 Amazon Bedrock 等平台也已快速整合 Sonnet 4.5。定價方面,維持與前代一致:輸入 3 美元 / 百萬 tokens,輸出 15 美元 / 百萬 tokens。

[廣告] 請繼續往下閱讀...

Anthropic 也特別強調安全性。官方指出,Claude Sonnet 4.5 經過更嚴格的安全訓練,可有效降低「奉承」(sycophancy)、誤導、權力追求等風險,並提升抵禦提示注入攻擊的能力。外部專家評估顯示,該模型在多領域的道德決策更趨穩健,適用於企業高風險場景。

Claude Sonnet 4.5 的推出可能推動「AI 作為同事」的工作模式普及,讓 AI 從原型開發走向自主維護。隨著更多平台與工具的整合,這款模型也被視為代理型 AI 商業化的重要轉捩點。