
▲GPT-5.2於今日登場。(圖/OpenAI)
記者吳立言/綜合報導
OpenAI 今(12日)正式推出全新一代模型 GPT-5.2,主打專業知識工作、長任務代理(agentic workflows)與複雜專案處理能力。OpenAI 表示,GPT-5.2 是目前最強大的模型系列,包含 Instant、Thinking 與 Pro 三種版本,將率先於 ChatGPT 付費用戶陸續開放,本日同步於 API 全面上線。
[廣告] 請繼續往下閱讀.
OpenAI 指出,GPT-5.2 的設計目標是協助專業人士提升效率,從製作試算表、簡報、撰寫程式碼,到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據,一般企業戶平均每天可節省 40~60 分鐘,重度用戶甚至可省下每周10 小時以上。
GPT-5.2 Thinking 在多項專業與推理評測創下新高,其中包含:
GDPval(知識工作評測):在 44 種職業任務測試中,GPT-5.2 Thinking 與產業專家相比 70.9% 達到平手或勝出,首次達到「整體專家級表現」。
[廣告] 請繼續往下閱讀..
程式能力:在 SWE-Bench Pro 實際軟體工程測試中達到 55.6% 正確率,刷新既有紀錄。
SWE-bench Verified(Python):提升至 80%。
高難度數學 FrontierMath(Tier 1–3):提升至 40.3%,為新 SOTA(state of the art)。
AIME 2025(競賽數學):達到罕見的 100%。
[廣告] 請繼續往下閱讀...
這代表該模型在真實世界的工作流程中,更能自主偵錯、完成功能開發、重構大型程式碼庫及協助工程團隊提升開發速度。
GPT-5.2 在多項核心能力上也明顯提升。首先,長上下文推理表現突破新高,在 OpenAI MRCRv2 測試中,模型於 256k tokens 的 4-needle 任務中接近 100% 準確率,特別是在 128k~256k 範圍仍維持高度穩定,意味著能更可靠處理動輒數十萬字的合約、研究論文與大型專案文件。
視覺理解方面同樣強化,GPT-5.2 Thinking 在科學圖表辨識(CharXiv)中的錯誤率約減半,在專業介面理解(ScreenSpot-Pro)更大幅領先前代,使其更適用於金融、營運、工程與設計等高度依賴視覺資訊的領域。工具調用能力則刷新紀錄,在 τ2-bench Telecom 多輪任務中成功率達 98.7%,能更完整處理跨步驟流程,例如客服案件、資料擷取與一條龍分析生成。
至於科研能力,GPT-5.2 在 GPQA Diamond 高難度理科題目中也取得 92~93% 的高分,OpenAI 稱已有研究團隊在其協助下於統計學問題上產生具研究價值的證明,並經外部專家驗證,展現其在科學與數學研究上的實質潛力。
API 定價部分,GPT-5.2 為每百萬字元 1.75 美元(輸入)與 14 美元(輸出),GPT-5.2 Pro 則為每百萬字元 21 美元(輸入)與 168 美元(輸出)。OpenAI 表示,雖然 GPT-5.2 單位成本較高,但由於模型在推理效率與生成品質上更精準,實際完成同等品質任務所需的總成本反而有機會降低。
GPT-5.2 提供三個版本:
Instant:快速、涵蓋大多數日常任務
Thinking:適合深度推理、文件分析、程式碼與大專案
Pro:最強版本,適合困難領域與最高品質需求
OpenAI 表示 GPT-5.2 整體輸出更一致、有條理,並針對敏感內容(心理健康、自傷訊息等)加強安全應答。ChatGPT Plus/Pro/Business/Enterprise 今日起陸續開放,GPT-5.1 將在三個月後從 ChatGPT 中下架(API 不受影響)。