
記者吳立言/綜合報導
OpenAI 今(24日)正式推出 GPT-5.5,定位為「新一類能實際完成工作的智慧模型」。相較前一代,GPT-5.5 不僅理解使用者意圖更快,也能在更少人工干預下完成複雜任務,代表 AI 正從輔助工具,轉向具備自主規劃與執行能力的「代理型(agentic)」系統。
官方指出,使用者現在可以直接交付一個多步驟、甚至混亂的任務,模型能自行拆解問題、調用工具、驗證結果並持續修正,直到完成工作。
從寫程式到操作電腦一手包辦
GPT-5.5 的能力涵蓋多個實務場景,包括程式撰寫與除錯、資料分析、文件與試算表生成、跨軟體操作,以及網路研究等。 其中在「代理型編程」表現最為突出。在 Terminal-Bench 2.0 測試中,GPT-5.5 準確率達 82.7%,顯著高於 GPT-5.4 的 75.1%。在模擬真實 GitHub 任務的 SWE-Bench Pro 中,也展現更高的一次完成率。 開發者回饋顯示,新模型在理解大型程式架構、推理錯誤原因、預測影響範圍等能力上有明顯進步,甚至能一次完成複雜分支合併與重構任務。
更聰明也更省資源
除了能力提升,GPT-5.5 在效率上也有關鍵進展。官方表示,其在實際運行中的延遲(latency)與 GPT-5.4 相當,但整體智能水準更高,且完成任務所需的 token 數量明顯下降。 在外部機構 Artificial Analysis 的評比中,GPT-5.5 以約一半成本,達到頂級編程模型水準,顯示 AI 正朝「高效能、低成本」方向發展。
AI 開始接手白領任務
在辦公與商業應用方面,GPT-5.5 也顯著強化。模型能從資訊蒐集、分析到輸出報告一條龍完成,並能操作電腦介面(點擊、輸入、切換工具),更接近真人工作流程。 OpenAI 內部數據顯示,已有超過 85% 員工每週使用 AI 工具處理工作,包括財務、行銷、資料分析與產品管理等領域。實際案例中,AI 曾協助審閱超過 7 萬頁稅務文件,並將處理時間縮短兩週。 在評估專業工作的 GDPval 指標中,GPT-5.5 達到 84.9%,已接近甚至超越部分人類專業表現。
從助手進化為「共同研究者」
GPT-5.5 在科學研究領域也展現突破。於基因分析與生物資訊測試(GeneBench、BixBench)中,模型能處理多階段資料分析與推論任務,甚至接近專家數天的工作量。 更值得關注的是,內部測試顯示 GPT-5.5 曾協助發現關於拉姆齊數(Ramsey numbers)的新數學證明,顯示 AI 已開始參與基礎科學研究,而不僅是輔助工具。
能力提升同時加嚴控管
隨著模型在資安與生物領域能力提升,OpenAI 也同步加強安全機制。GPT-5.5 被列為「高風險能力等級」,導入更嚴格的濫用偵測與限制措施。 此外,官方推出「Trusted Access」機制,讓經驗證的資安專業人士能在較低限制下使用模型進行防禦性研究,同時降低惡意使用風險。
率先開放訂閱用戶
目前 GPT-5.5 已開始在 ChatGPT 與 Codex 平台推出,開放給 Plus、Pro、Business 與 Enterprise 用戶使用,其中 GPT-5.5 Pro 僅限較高等級方案。 API 版本預計將於近期上線,定價為每百萬輸入 token 5 美元、輸出 token 30 美元,高階版本 GPT-5.5 Pro 則價格更高。
GPT-5.5 不只是性能升級,更代表 AI 使用模式的轉變:從「人類操作 AI」走向「AI 主動完成工作」。 當模型能長時間維持任務、跨工具操作並自主修正錯誤,意味著未來工作流程將被重新定義。對企業而言,這不僅是效率提升工具,更可能成為核心生產力來源。
