世上僅剩7人能贏它?Gemini 3 Deep Think寫程式分數衝進人類前段班

▲▼Google發表新版「Gemini 3 Deep Think」。(圖/Google)

▲Google發表新版「Gemini 3 Deep Think」。(圖/Google)

記者吳立言/綜合報導

Google 今(13日)發表新版「Gemini 3 Deep Think」,主打更強的推理能力與工程應用場景。其中最受關注的,是在程式競賽平台 Codeforces 測試中取得等效 Elo 3455 的成績。若以目前公開的人類排行榜對照,該分數大致落在全球前十名區間,僅少數頂尖選手的評分高於這個數字。

Codeforces 是全球知名的演算法競賽平台,分數越高代表解題與寫程式能力越強。Google DeepMind 公布的 3455 為等效 Elo,意即在統一測試條件下,把模型在一批競賽題上的表現換算成可比較的分數。對照同一份文件,Anthropic 的 Claude Opus 4.6 為 2352,顯示兩款模型在競技程式題上的表現存在差距。

[廣告]請繼續往下閱讀...

不過,這並非模型實際註冊帳號參賽取得的成績,而是透過固定題庫與測試規則計算出的等效數值,用來衡量「讀題、推理、寫出可執行程式」的整體能力。

Gemini 3 Deep Think 核心更新重點

Google 指出,新版 Deep Think 在高階數理推理任務上展現更穩定表現。官方舉例,模型可協助審閱高度技術性的數學或物理論文,並指出潛在邏輯問題。在資料稀少、解題路徑不明確的研究場景中,推理過程更強調步驟完整與邏輯一致性。

工程應用場景拓展

除了理論題目,Deep Think 也被用於工程實務應用。例如可分析手繪草圖並生成可 3D 列印的模型檔案,協助加速原型設計流程。Google 表示,這類功能著重於把抽象構想轉換為可操作的工程成果。

多項高難度基準同步刷新

在官方公布的基準測試中,Deep Think 在人類的最後考試(Humanity’s Last Exam)取得 48.4%,在 ARC-AGI-2 測試中達到 84.6%。Google 同時提到,模型在數學與物理相關競賽級基準上達到金牌等級水準,強調其推理能力的整體提升。

目前,新版 Deep Think 已開放給 Google AI Ultra 訂閱用戶使用,並首次透過 Gemini API 提供給研究人員與企業申請早期存取。

隨著模型在解題與程式實作上的能力提升,軟體開發的瓶頸逐漸前移。當需求邊界、例外情境與驗收標準被定義得夠清楚,程式實作就更容易被自動化接手;但在系統架構決策、風險評估與最終品質把關上,仍需要人類專業判斷。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【89猴湊一對】男違停路中比中指譙三字經 金髮女上車前眼抽筋瞪5秒

【89猴湊一對】男違停路中比中指譙三字經 金髮女上車前眼抽筋瞪5秒

【一抽入魂】爸爸代抽兵種抽中海軍陸戰隊!全場驚呆

【一抽入魂】爸爸代抽兵種抽中海軍陸戰隊!全場驚呆

直播遭私生連環叩 aespa寧藝卓:別再打了!

直播遭私生連環叩 aespa寧藝卓:別再打了!

球友看WBC熱血噴發即刻開打 ,靠普拿疼肌立快速擊退酸痛

球友看WBC熱血噴發即刻開打 ,靠普拿疼肌立快速擊退酸痛

陳子強爆感情風波後首露面 回應「一切交給公司處理」

陳子強爆感情風波後首露面 回應「一切交給公司處理」

讀者迴響

Gemini和ChatGPT有什麼不同?

Gemini是Google開發的AI,擅長整合Gmail、Docs、YouTube等服務,適合重度Google用戶;而ChatGPT則由OpenAI開發,操作簡單、回應速度快,是多數人入門AI的首選。

最夯影音

更多

熱門快報

回到網頁頂端