
▲Google發表新版「Gemini 3 Deep Think」。(圖/Google)
記者吳立言/綜合報導
Google 今(13日)發表新版「Gemini 3 Deep Think」,主打更強的推理能力與工程應用場景。其中最受關注的,是在程式競賽平台 Codeforces 測試中取得等效 Elo 3455 的成績。若以目前公開的人類排行榜對照,該分數大致落在全球前十名區間,僅少數頂尖選手的評分高於這個數字。
Codeforces 是全球知名的演算法競賽平台,分數越高代表解題與寫程式能力越強。Google DeepMind 公布的 3455 為等效 Elo,意即在統一測試條件下,把模型在一批競賽題上的表現換算成可比較的分數。對照同一份文件,Anthropic 的 Claude Opus 4.6 為 2352,顯示兩款模型在競技程式題上的表現存在差距。
不過,這並非模型實際註冊帳號參賽取得的成績,而是透過固定題庫與測試規則計算出的等效數值,用來衡量「讀題、推理、寫出可執行程式」的整體能力。
Gemini 3 Deep Think 核心更新重點
Google 指出,新版 Deep Think 在高階數理推理任務上展現更穩定表現。官方舉例,模型可協助審閱高度技術性的數學或物理論文,並指出潛在邏輯問題。在資料稀少、解題路徑不明確的研究場景中,推理過程更強調步驟完整與邏輯一致性。
工程應用場景拓展
除了理論題目,Deep Think 也被用於工程實務應用。例如可分析手繪草圖並生成可 3D 列印的模型檔案,協助加速原型設計流程。Google 表示,這類功能著重於把抽象構想轉換為可操作的工程成果。
多項高難度基準同步刷新
在官方公布的基準測試中,Deep Think 在人類的最後考試(Humanity’s Last Exam)取得 48.4%,在 ARC-AGI-2 測試中達到 84.6%。Google 同時提到,模型在數學與物理相關競賽級基準上達到金牌等級水準,強調其推理能力的整體提升。
目前,新版 Deep Think 已開放給 Google AI Ultra 訂閱用戶使用,並首次透過 Gemini API 提供給研究人員與企業申請早期存取。
隨著模型在解題與程式實作上的能力提升,軟體開發的瓶頸逐漸前移。當需求邊界、例外情境與驗收標準被定義得夠清楚,程式實作就更容易被自動化接手;但在系統架構決策、風險評估與最終品質把關上,仍需要人類專業判斷。
