
記者吳立言/綜合報導
Google 上周推出的 Gemini 3,再度引起學界與科技圈高度關注。最新實測顯示,該模型不僅在多項基準測試中取得領先,更被世界級數學家陶哲軒親自驗證,成功在短短十分鐘內協助推導出埃爾德什問題 #367 的關鍵證明,展現出 AI 在高階推理上的突破性進展。
根據研究機構 Epoch AI 公布的最新資料,Gemini 3 Pro 在 FrontierMath 基準測試中刷新紀錄,Tier 1–3 的整體準確率達 38%,Tier 4 亦達到 19%;在綜合多項能力的 Epoch 能力指標(ECI)中取得 154 分,超越 GPT-5.1 先前保持的 151 分。FrontierMath 是由職業數學家共同設計、針對高階數學推理能力的評測,被視為目前最具難度的 AI 數學「試金石」。
FrontierMath 的題庫涵蓋代數幾何、範疇論、數論、實分析等多個現代數學領域,題目設計接近研究級難度,其中 Tier 4 更被認為相當於未公開的前沿問題。模型在測試過程中需提交可直接執行的 Python 函數,由系統自動驗證正確性,確保評測客觀與可重現。
除了基準測試之外,Gemini 3 更在實際研究場景中展現應用能力。陶哲軒近日在社群平台分享,他使用 Gemini Deepthink 模式處理埃爾德什問題 #367,只花約十分鐘便獲得一組完整且可檢驗的推導框架。後續他再將該推理重寫成更基礎版本,並由 Boris Alexeev 進一步完成形式化驗證。此案例凸顯 AI 已能協助研究者處理冗長枚舉與檢驗工作,使專家得以集中於核心創意與策略判斷。
AI 在科學研究領域的影響也延伸至物理學。最新上線的 CritPt 物理基準測試同樣由多國研究者共同打造,專門用來衡量模型是否具備物理博士生層級的跨領域推理能力。Gemini 3 Pro 在該測試中同樣位居榜首,雖僅取得 9.1% 的整體表現,但仍高於其他現有模型,代表研究級物理推理仍是當前 AI 的下一個主要挑戰。
頂尖研究者開始將 AI 視為「工作夥伴」,未來數學與科學研究的合作模式可能將迎來重大轉變;而誰能率先學會與高階模型協作,將成為研究效率的關鍵差異。
