Claude Opus 4.5登場　軟體工程測試分數超越人類

▲▼Claude Code。（圖／Claude）

記者吳立言／綜合報導

Anthropic 今（25日）正式發表全新大型模型「Claude Opus 4.5」，官方將其定位為在編碼、智慧代理與電腦操作上均具領先表現的通用模型，在深度研究、簡報處理與電子表格任務上的能力也全面提升。

最新版本不僅是現有能力的進化，也反映未來工作流程可能出現更大變化。Anthropic 表示，Opus 4.5 已全面上線於自家應用、API 與三大雲端平台，開發者可透過 Claude API 使用「claude-opus-4-5-20251101」版本，輸入、輸出費率分別為每百萬 tokens 5 美元與 25 美元。

Opus 4.5 也同步帶動開發者平台與消費者應用更新，包括支援更長時程的任務執行、改善 Excel 與 Chrome 整合方式，並在長對話中自動總結舊資訊，讓系統能持續延伸上下文。

[廣告]請繼續往下閱讀...

Anthropic 指出，其內部長期使用一份高難度的「性能工程居家測試」來評估工程職位求職者。在相同的兩小時限時條件下，Claude Opus 4.5 的得分「超越歷來所有人類候選人」，顯示其在壓力情境中的技術判斷力具高度競爭性。儘管測試並未涵蓋協作或長期經驗等能力，但此結果仍引發外界對 AI 工程職能變化的討論。

Introducing Claude Opus 4.5: the best model in the world for coding, agents, and computer use.

Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done. pic.twitter.com/mid2Z1qzIf
— Claude (@claudeai) November 24, 2025

在智能體能力評估 τ2-bench 中，模型需模擬航空公司服務人員處理客訴。雖然標準答案要求拒絕變更「基礎經濟艙」機票，但 Opus 4.5 找到條款中允許的替代方案：先付費升艙，再依規定變更航班。此舉雖被系統判定為「未照標準流程」而算失敗，但被 Anthropic 視為展現出更貼近真人思考的「洞察力」。公司補充，這類行為在特定情境可能構成「規避獎賞（reward hacking）」，因此仍是安全測試的重要面向。

Anthropic 稱，Claude Opus 4.5 是其目前對齊程度最高的模型，並強化了對提示注入（prompt injection）攻擊的防禦能力，在高敏感度任務中能更有效避免誤導。

新版本增加名為「effort（投入度）」的調節參數，可在速度、成本與能力間取得平衡。在中等投入度下，Opus 4.5 在 SWE-bench Verified 的表現接近 Sonnet 4.5，但輸出 token 減少達 76%；在最高投入度下，得分領先 Sonnet 4.5 4.3 個百分點，同時仍降低 48% 的輸出量。

在研究任務評估中，結合「努力控制、上下文壓縮與高階工具」後，Opus 4.5 性能提升近 15 個百分點，也更擅長指派、協調多個子智能體。

Opus 4.5 也為 Claude Code 帶來重大更新，包括能先澄清需求、再產出可編輯的 plan.md 任務文件，並已登上桌面應用、支援多組本地與遠端工作階段。消費者端則開放 Claude for Chrome 給所有 Max 用戶，Claude for Excel 的測試資格亦擴大至 Max、Team、Enterprise。獲准使用 Opus 4.5 的用戶，其模型使用上限已取消，Max 與 Team Premium 的總額度也同步提升。