代碼生成進入零錯誤時代？Claude Sonnet 4.5登場　準確率再創紀錄

2025年09月30日 13:33

▲Claude Sonnet 4.5 。（圖／Anthropicai）

記者吳立言／綜合報導

人工智慧公司 Anthropic 29 日正式推出新一代旗艦模型 Claude Sonnet 4.5，並強調其在編碼領域的突破性表現，直指「全球最佳 AI 編碼模型」定位。此舉不僅被視為對 OpenAI GPT-5 與 Google Gemini 2.5 Pro 的正面挑戰，同時也代表著 AI 代理技術加速進入實用階段。

[廣告] 請繼續往下閱讀.

在最新公開的基準測試中，Claude Sonnet 4.5 在 SWE-bench Verified 編碼測試中取得領先成績，能連續執行超過 30 小時自主任務，大幅超越前代 Claude Opus 4 的 7 小時上限。這意味著該模型可處理跨代碼庫、多步驟的複雜專案，實現接近「生產就緒」的應用層級。

官方數據顯示，Claude Sonnet 4.5 在代碼編輯的錯誤率降至 0%，工具使用成功率顯著提升，並在 OSWorld 基準中取得 61.4% 分數，較四個月前的 Sonnet 4 提升近兩成。同時，它在金融、醫學、法律與 STEM 領域的專業推理能力也全面增強。

除了性能升級，Anthropic 也在產品功能上做出優化：

Claude Code 新增「檢查點」功能，支援進度保存與回滾。

[廣告] 請繼續往下閱讀..

API 新增上下文編輯與記憶工具，支援長時序任務。

Claude 應用程式整合代碼執行與文件生成，支援表格、簡報等產出。

推出 Claude Agent SDK，協助開發者以自然語言打造自訂 AI 代理，並能管理記憶、權限與子代理協作。

該 SDK 已與 Claude for Chrome 擴充套件串接，同時 GitHub Copilot、Replit Agent 及 Amazon Bedrock 等平台也已快速整合 Sonnet 4.5。定價方面，維持與前代一致：輸入 3 美元 / 百萬 tokens，輸出 15 美元 / 百萬 tokens。

[廣告] 請繼續往下閱讀...

Anthropic 也特別強調安全性。官方指出，Claude Sonnet 4.5 經過更嚴格的安全訓練，可有效降低「奉承」（sycophancy）、誤導、權力追求等風險，並提升抵禦提示注入攻擊的能力。外部專家評估顯示，該模型在多領域的道德決策更趨穩健，適用於企業高風險場景。

Claude Sonnet 4.5 的推出可能推動「AI 作為同事」的工作模式普及，讓 AI 從原型開發走向自主維護。隨著更多平台與工具的整合，這款模型也被視為代理型 AI 商業化的重要轉捩點。

關鍵字： ClaudeSonnet4.5, Claude, Anthropic, AI編碼, Coding