Gemini 3十分鐘解出百年數學難題　陶哲軒：表現遠超預期

▲▼Gemini3,GoogleGemini。（圖／Google）

記者吳立言／綜合報導

Google 上周推出的 Gemini 3，再度引起學界與科技圈高度關注。最新實測顯示，該模型不僅在多項基準測試中取得領先，更被世界級數學家陶哲軒親自驗證，成功在短短十分鐘內協助推導出埃爾德什問題 #367 的關鍵證明，展現出 AI 在高階推理上的突破性進展。

根據研究機構 Epoch AI 公布的最新資料，Gemini 3 Pro 在 FrontierMath 基準測試中刷新紀錄，Tier 1–3 的整體準確率達 38%，Tier 4 亦達到 19%；在綜合多項能力的 Epoch 能力指標（ECI）中取得 154 分，超越 GPT-5.1 先前保持的 151 分。FrontierMath 是由職業數學家共同設計、針對高階數學推理能力的評測，被視為目前最具難度的 AI 數學「試金石」。

FrontierMath 的題庫涵蓋代數幾何、範疇論、數論、實分析等多個現代數學領域，題目設計接近研究級難度，其中 Tier 4 更被認為相當於未公開的前沿問題。模型在測試過程中需提交可直接執行的 Python 函數，由系統自動驗證正確性，確保評測客觀與可重現。

[廣告]請繼續往下閱讀...

除了基準測試之外，Gemini 3 更在實際研究場景中展現應用能力。陶哲軒近日在社群平台分享，他使用 Gemini Deepthink 模式處理埃爾德什問題 #367，只花約十分鐘便獲得一組完整且可檢驗的推導框架。後續他再將該推理重寫成更基礎版本，並由 Boris Alexeev 進一步完成形式化驗證。此案例凸顯 AI 已能協助研究者處理冗長枚舉與檢驗工作，使專家得以集中於核心創意與策略判斷。

AI 在科學研究領域的影響也延伸至物理學。最新上線的 CritPt 物理基準測試同樣由多國研究者共同打造，專門用來衡量模型是否具備物理博士生層級的跨領域推理能力。Gemini 3 Pro 在該測試中同樣位居榜首，雖僅取得 9.1% 的整體表現，但仍高於其他現有模型，代表研究級物理推理仍是當前 AI 的下一個主要挑戰。

頂尖研究者開始將 AI 視為「工作夥伴」，未來數學與科學研究的合作模式可能將迎來重大轉變；而誰能率先學會與高階模型協作，將成為研究效率的關鍵差異。