▲Claude Opus 4與Sonnet 4正式登場。(圖/Anthropic,下同)
記者吳立言/綜合報導
人工智慧新創公司Anthropic今(23)日正式發表下一代大型語言模型「Claude 4」系列,包含旗艦級的Claude Opus 4與中階定位的Claude Sonnet 4。兩款模型不僅在軟體工程測試基準SWE-bench上創下新高,更宣示進軍AI智能代理應用,涵蓋編程、自動化工具整合、長時任務協作等多項功能。
Opus 4被定位為當今全球最強的編程模型,根據SWE-bench測試達到 72.5%、Terminal-bench達 43.2%的成績,能持續運行數小時處理高度複雜任務,成為AI助理與自動化系統的潛力核心。Sonnet 4則在輕量與推理能力之間取得優異平衡,支援更廣泛的日常開發與知識工作場景。
此外,Anthropic同步推出「Claude Code」正式版,支援VS Code、JetBrains等開發環境,並可透過GitHub Actions實現後台執行,提供更流暢的協作編程體驗。新模型亦支援並行工具使用、本地文件記憶、自動知識積累與思維摘要等多項進階功能。Opus 4已獲多家業界代表高度肯定,包括Cursor、Replit、Block、Rakuten等在編程任務中證實其效能穩定且成果優異。Sonnet 4則獲GitHub、Manus、iGent等讚譽其在複雜指令解析與推理表現上的長足進展。
目前,Claude Opus 4與Sonnet 4均已透過Anthropic API、Amazon Bedrock與Google Cloud Vertex AI等平台提供服務。Opus 4定價為每百萬tokens輸入15 美元、輸出75 美元;Sonnet 4則為輸入3美元、輸出15美元,Sonnet 4則可於免費方案中試用。Anthropic表示,Opus 4能夠自動創建「導航筆記」、維持跨任務上下文一致性,適合打造具長期記憶的AI代理。新模型也針對「鑽漏洞」、「捷徑行為」進行強化處理,減少潛在風險達65%。
Claude 4的推出反映出大型語言模型在多工具協作、長時推理與程式理解方面的持續演進。相關技術未來如何落地,仍需透過實務測試與開發應用進一步驗證。