緊咬Anthropic!OpenAI同日推GPT-5.3-Codex 跑分碾壓Opus 4.6

▲▼ChatGPT,Gemini,Grok,Claude,Perplexity,App,AI工具。(圖/記者吳立言攝)

▲緊咬Anthropic!OpenAI同日推出GPT-5.3-Codex。(圖/記者吳立言攝)

記者吳立言/綜合報導

兩大 AI 巨頭 Anthropic 與 OpenAI 於今日接連發布重大更新。Anthropic 首先發表 Claude Opus 4.6,主打極長文本處理能力;OpenAI 一小時後隨即宣布推出 GPT-5.3-Codex,並公布數據顯示其在編碼實戰測試中展現出顯著的領先優勢。

[廣告] 請繼續往下閱讀.

Claude Opus 4.6:導入深度思考機制與多代理協作

Anthropic 此次更新重點聚焦於大規模資訊處理與邏輯穩定性。Claude Opus 4.6 將上下文視窗(Context Window)擴展至 100 萬 Token,相較於前代版本提升 5 倍之多。技術層面上,該模型導入了「思考決策點」功能,使模型能辨識問題複雜度,自主決定是否啟動深度推理流程。

此外,Opus 4.6 強化了多代理(Multi-agent)協作能力,並在長文本記憶留存率上提升近 4 倍,旨在解決長對話中常見的指令遺忘與邏輯斷層問題,針對大型專案的架構分析提供了更穩定的基礎。

GPT-5.3-Codex:優化生成效率與 OS 層級操控

面對 Anthropic 的挑戰,OpenAI 推出的 GPT-5.3-Codex 則在編碼基準測試中交出了亮眼成績。數據顯示,該模型在 SWE-bench Pro(57%)、TerminalBench 2.0(76%) 及 OSWorld(64%) 等測試中,皆取得目前業界最高水準。

除了跑分優勢,GPT-5.3-Codex 在開發體驗上有兩項核心突破:

中途干預能力(Mid-task Steerability): 支持任務執行過程中的即時引導與動態更新,大幅降低複雜開發任務的錯誤成本。

[廣告] 請繼續往下閱讀...

效能密度提升: 生成相同內容所需 Token 數降至 5.2-Codex 的一半以下,且每 Token 生成速率提升超過 25%,顯著優化了推理成本與延遲。

這兩款模型的發布顯示出兩家公司發展策略的差異化:Claude 傾向於成為具備超長記憶與深度邏輯的「數位大腦」;而 GPT-5.3-Codex 則朝向具備系統操作能力、高效率且可高度受控的「執行工具」進化。

隨著 GPT-5.3-Codex 正式上線,開發者將有機會直接對比這兩款頂尖模型在實際工作流中的表現差異。