GPT-5.2正式亮相！長文件推理逼近滿分、企業應用大進化

2025年12月12日 06:09

▲GPT-5.2於今日登場。（圖／OpenAI）

記者吳立言／綜合報導

OpenAI 今（12日）正式推出全新一代模型 GPT-5.2，主打專業知識工作、長任務代理（agentic workflows）與複雜專案處理能力。OpenAI 表示，GPT-5.2 是目前最強大的模型系列，包含 Instant、Thinking 與 Pro 三種版本，將率先於 ChatGPT 付費用戶陸續開放，本日同步於 API 全面上線。

[廣告] 請繼續往下閱讀.

OpenAI 指出，GPT-5.2 的設計目標是協助專業人士提升效率，從製作試算表、簡報、撰寫程式碼，到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據，一般企業戶平均每天可節省 40～60 分鐘，重度用戶甚至可省下每周10 小時以上。

GPT-5.2 Thinking 在多項專業與推理評測創下新高，其中包含：

GDPval（知識工作評測）：在 44 種職業任務測試中，GPT-5.2 Thinking 與產業專家相比 70.9% 達到平手或勝出，首次達到「整體專家級表現」。

[廣告] 請繼續往下閱讀..

程式能力：在 SWE-Bench Pro 實際軟體工程測試中達到 55.6% 正確率，刷新既有紀錄。

SWE-bench Verified（Python）：提升至 80%。

高難度數學 FrontierMath（Tier 1–3）：提升至 40.3%，為新 SOTA（state of the art）。

AIME 2025（競賽數學）：達到罕見的 100%。

[廣告] 請繼續往下閱讀...

這代表該模型在真實世界的工作流程中，更能自主偵錯、完成功能開發、重構大型程式碼庫及協助工程團隊提升開發速度。

GPT-5.2 在多項核心能力上也明顯提升。首先，長上下文推理表現突破新高，在 OpenAI MRCRv2 測試中，模型於 256k tokens 的 4-needle 任務中接近 100% 準確率，特別是在 128k～256k 範圍仍維持高度穩定，意味著能更可靠處理動輒數十萬字的合約、研究論文與大型專案文件。

視覺理解方面同樣強化，GPT-5.2 Thinking 在科學圖表辨識（CharXiv）中的錯誤率約減半，在專業介面理解（ScreenSpot-Pro）更大幅領先前代，使其更適用於金融、營運、工程與設計等高度依賴視覺資訊的領域。工具調用能力則刷新紀錄，在 τ2-bench Telecom 多輪任務中成功率達 98.7%，能更完整處理跨步驟流程，例如客服案件、資料擷取與一條龍分析生成。

至於科研能力，GPT-5.2 在 GPQA Diamond 高難度理科題目中也取得 92～93% 的高分，OpenAI 稱已有研究團隊在其協助下於統計學問題上產生具研究價值的證明，並經外部專家驗證，展現其在科學與數學研究上的實質潛力。

API 定價部分，GPT-5.2 為每百萬字元 1.75 美元（輸入）與 14 美元（輸出），GPT-5.2 Pro 則為每百萬字元 21 美元（輸入）與 168 美元（輸出）。OpenAI 表示，雖然 GPT-5.2 單位成本較高，但由於模型在推理效率與生成品質上更精準，實際完成同等品質任務所需的總成本反而有機會降低。
GPT-5.2 提供三個版本：

Instant：快速、涵蓋大多數日常任務

Thinking：適合深度推理、文件分析、程式碼與大專案

Pro：最強版本，適合困難領域與最高品質需求

OpenAI 表示 GPT-5.2 整體輸出更一致、有條理，並針對敏感內容（心理健康、自傷訊息等）加強安全應答。ChatGPT Plus／Pro／Business／Enterprise 今日起陸續開放，GPT-5.1 將在三個月後從 ChatGPT 中下架（API 不受影響）。

關鍵字： OpenAI, GPT-5.2, AI模型, ChatGPT, 專業工具