Claude Opus 4.5登場 軟體工程測試分數超越人類

▲▼Claude Code。(圖/Claude)

記者吳立言/綜合報導

Anthropic 今(25日)正式發表全新大型模型「Claude Opus 4.5」,官方將其定位為在編碼、智慧代理與電腦操作上均具領先表現的通用模型,在深度研究、簡報處理與電子表格任務上的能力也全面提升。

最新版本不僅是現有能力的進化,也反映未來工作流程可能出現更大變化。Anthropic 表示,Opus 4.5 已全面上線於自家應用、API 與三大雲端平台,開發者可透過 Claude API 使用「claude-opus-4-5-20251101」版本,輸入、輸出費率分別為每百萬 tokens 5 美元與 25 美元。

Opus 4.5 也同步帶動開發者平台與消費者應用更新,包括支援更長時程的任務執行、改善 Excel 與 Chrome 整合方式,並在長對話中自動總結舊資訊,讓系統能持續延伸上下文。

[廣告]請繼續往下閱讀...

Anthropic 指出,其內部長期使用一份高難度的「性能工程居家測試」來評估工程職位求職者。在相同的兩小時限時條件下,Claude Opus 4.5 的得分「超越歷來所有人類候選人」,顯示其在壓力情境中的技術判斷力具高度競爭性。儘管測試並未涵蓋協作或長期經驗等能力,但此結果仍引發外界對 AI 工程職能變化的討論。

在智能體能力評估 τ2-bench 中,模型需模擬航空公司服務人員處理客訴。雖然標準答案要求拒絕變更「基礎經濟艙」機票,但 Opus 4.5 找到條款中允許的替代方案:先付費升艙,再依規定變更航班。此舉雖被系統判定為「未照標準流程」而算失敗,但被 Anthropic 視為展現出更貼近真人思考的「洞察力」。公司補充,這類行為在特定情境可能構成「規避獎賞(reward hacking)」,因此仍是安全測試的重要面向。

Anthropic 稱,Claude Opus 4.5 是其目前對齊程度最高的模型,並強化了對提示注入(prompt injection)攻擊的防禦能力,在高敏感度任務中能更有效避免誤導。

新版本增加名為「effort(投入度)」的調節參數,可在速度、成本與能力間取得平衡。在中等投入度下,Opus 4.5 在 SWE-bench Verified 的表現接近 Sonnet 4.5,但輸出 token 減少達 76%;在最高投入度下,得分領先 Sonnet 4.5 4.3 個百分點,同時仍降低 48% 的輸出量。

在研究任務評估中,結合「努力控制、上下文壓縮與高階工具」後,Opus 4.5 性能提升近 15 個百分點,也更擅長指派、協調多個子智能體。

Opus 4.5 也為 Claude Code 帶來重大更新,包括能先澄清需求、再產出可編輯的 plan.md 任務文件,並已登上桌面應用、支援多組本地與遠端工作階段。消費者端則開放 Claude for Chrome 給所有 Max 用戶,Claude for Excel 的測試資格亦擴大至 Max、Team、Enterprise。獲准使用 Opus 4.5 的用戶,其模型使用上限已取消,Max 與 Team Premium 的總額度也同步提升。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【雙向奔赴的友誼】郵差來送信!狗狗立刻搖尾狂撒嬌

【雙向奔赴的友誼】郵差來送信!狗狗立刻搖尾狂撒嬌

【八點檔女星車禍】顏曉筠騎車遭撞!慘摔倒地滑行

【八點檔女星車禍】顏曉筠騎車遭撞!慘摔倒地滑行

【送你日不落的想念啦!】唱TWICE被客人嗆「很憨」 牛排員工氣到加碼唱蔡依林XD

【送你日不落的想念啦!】唱TWICE被客人嗆「很憨」 牛排員工氣到加碼唱蔡依林XD

子瑜回台開演唱會..媽媽喊「像嫁女兒」 哽咽「會想大家」下秒:快把音樂關掉XD

子瑜回台開演唱會..媽媽喊「像嫁女兒」 哽咽「會想大家」下秒:快把音樂關掉XD

【還以為在台灣】大阪環球工作人員用台語指導遊戲 還以為在台灣XD

【還以為在台灣】大阪環球工作人員用台語指導遊戲 還以為在台灣XD

讀者迴響

哪些AI工具支援繁體中文?

目前較主流的ChatGPT、Claude、Gemini、Perplexity、Copilot等都支援繁體中文,回覆也愈來愈自然。不過圖像生成工具有些還是以英文提示詞為主,使用時可留意。

最夯影音

更多

熱門快報

回到網頁頂端