Gemini 3十分鐘解出百年數學難題 陶哲軒:表現遠超預期

▲▼Gemini3,GoogleGemini。(圖/Google)

記者吳立言/綜合報導

Google 上周推出的 Gemini 3,再度引起學界與科技圈高度關注。最新實測顯示,該模型不僅在多項基準測試中取得領先,更被世界級數學家陶哲軒親自驗證,成功在短短十分鐘內協助推導出埃爾德什問題 #367 的關鍵證明,展現出 AI 在高階推理上的突破性進展。

根據研究機構 Epoch AI 公布的最新資料,Gemini 3 Pro 在 FrontierMath 基準測試中刷新紀錄,Tier 1–3 的整體準確率達 38%,Tier 4 亦達到 19%;在綜合多項能力的 Epoch 能力指標(ECI)中取得 154 分,超越 GPT-5.1 先前保持的 151 分。FrontierMath 是由職業數學家共同設計、針對高階數學推理能力的評測,被視為目前最具難度的 AI 數學「試金石」。

FrontierMath 的題庫涵蓋代數幾何、範疇論、數論、實分析等多個現代數學領域,題目設計接近研究級難度,其中 Tier 4 更被認為相當於未公開的前沿問題。模型在測試過程中需提交可直接執行的 Python 函數,由系統自動驗證正確性,確保評測客觀與可重現。

[廣告]請繼續往下閱讀...

除了基準測試之外,Gemini 3 更在實際研究場景中展現應用能力。陶哲軒近日在社群平台分享,他使用 Gemini Deepthink 模式處理埃爾德什問題 #367,只花約十分鐘便獲得一組完整且可檢驗的推導框架。後續他再將該推理重寫成更基礎版本,並由 Boris Alexeev 進一步完成形式化驗證。此案例凸顯 AI 已能協助研究者處理冗長枚舉與檢驗工作,使專家得以集中於核心創意與策略判斷。

AI 在科學研究領域的影響也延伸至物理學。最新上線的 CritPt 物理基準測試同樣由多國研究者共同打造,專門用來衡量模型是否具備物理博士生層級的跨領域推理能力。Gemini 3 Pro 在該測試中同樣位居榜首,雖僅取得 9.1% 的整體表現,但仍高於其他現有模型,代表研究級物理推理仍是當前 AI 的下一個主要挑戰。

頂尖研究者開始將 AI 視為「工作夥伴」,未來數學與科學研究的合作模式可能將迎來重大轉變;而誰能率先學會與高階模型協作,將成為研究效率的關鍵差異。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

Momo.定延表演中打滑 Sana「毛巾鋪地」救援

Momo.定延表演中打滑 Sana「毛巾鋪地」救援

孫淑媚.鍾欣凌.丁寧組女團飆〈Golden〉 以體型取團名「SML」..笑虧:她是XL

孫淑媚.鍾欣凌.丁寧組女團飆〈Golden〉 以體型取團名「SML」..笑虧:她是XL

TWICE高雄安可曲 加碼經典〈TT〉

TWICE高雄安可曲 加碼經典〈TT〉

《眾生相》李駿碩奪最佳導演 向台下男友告白:I Love You

《眾生相》李駿碩奪最佳導演 向台下男友告白:I Love You

多賢中文喊話超Q 志效在旁幫解釋XD

多賢中文喊話超Q 志效在旁幫解釋XD

讀者迴響

聊天AI哪個支援中文最好?

目前ChatGPT、Claude、Gemini都支援繁體中文,回覆自然,初學者建議從ChatGPT開始。

最夯影音

更多

熱門快報

回到網頁頂端