▲OpenAI四大升級亮相,打造更智慧、更安全的語音代理工具。(圖/OpenAI)
記者吳立言/綜合報導
OpenAI今(4日)宣布推出四項重大技術更新,進一步強化「語音代理(Voice Agent)」的開發能力與應用靈活性。此次升級涵蓋開發工具支援、語音模型性能、人類審查機制與調試可視化等面向,為開發者帶來前所未有的建構自由度與控制力。以下為四大更新重點:
The Agents SDK is now available in TypeScript and supports handoffs, guardrails, tracing, MCP, and other core agent primitives, just like the Python version.https://t.co/3wcfWF5YgA pic.twitter.com/nDf2KQIpsu
— OpenAI Developers (@OpenAIDevs) June 3, 2025[廣告]請繼續往下閱讀...
※Agents SDK 支援 TypeScript:網頁與跨端開發者大福音
OpenAI將原本僅支援Python的Agents SDK擴展至TypeScript,讓熟悉JavaScript生態系的開發者能夠更輕鬆構建語音代理。新版TypeScript SDK完整支援與Python等效的四大核心功能:
◆handoffs:允許代理人間進行任務交接
◆guardrails:設置代理行為的安全限制
◆tracing:即時記錄與分析代理運作過程
◆MCP:多元組件架構,支援複雜代理任務協同處理
此舉讓開發者能夠直接在網頁端或Node.js環境中構建語音助理、智慧客服等互動型應用,縮短產品開發週期。
It includes new support for human-in-the-loop approvals, allowing you to pause tool execution, serialize and store the agent state, approve or reject specific calls, and resume the agent run.https://t.co/F0MveRpASG
— OpenAI Developers (@OpenAIDevs) June 3, 2025
※加入「人類審查」(Human-in-the-loop)機制:敏感任務更可控
OpenAI新增「人類審查流程」,允許代理在執行敏感操作前,暫停並等待人工確認,應用情境包括財務指令執行、醫療諮詢回應、企業內部客服等高風險任務。該機制支援:
◆工具執行前「暫停」代理流程
◆儲存當前狀態供審核人員檢視
◆由人工批准或拒絕該次工具呼叫
◆通過後「恢復」代理流程繼續執行
此更新大幅提高了系統可審計性與合規性,讓開發者可導入更複雜的企業應用情境。
You can also build voice agents that run in the client or on your server with the new RealtimeAgent feature, powered by the Realtime API. Define them like text agents, including tool calls, handoffs, guardrails and with automatic audio and interruption handling. Get started here:… pic.twitter.com/On2yEHGtKF
— OpenAI Developers (@OpenAIDevs) June 3, 2025
※RealtimeAgent功能上線:打造高互動語音代理的新途徑
RealtimeAgent是OpenAI針對語音代理推出的新高階框架,可於瀏覽器或伺服器端部署,支援即時語音互動。具備:
◆語音輸入與即時回應處理
◆工具調用(function calling)能力
◆會話交接(handoffs)功能
◆支援語音中斷與續接
◆自動處理播放與暫停控制
這項工具特別適合建構像是AI電話客服、智慧語音助理、互動遊戲角色(如 AI地牢《AI Dungeon》) 等需即時語音處理的場景。搭配Realtime API,即可靈活打造語音互動工作流。
Next, the Traces dashboard now supports Realtime API sessions, letting you visualize voice agent runs, including audio input/output, tool invocations, and interruptions, whether created via the API or the Agents SDK. Here's @_agamble to show you how it works: pic.twitter.com/r8KY2icgO3
— OpenAI Developers (@OpenAIDevs) June 3, 2025
※ Traces儀表板升級:語音代理調試全面可視化
開發者熟悉的Traces儀表板也進行大幅升級,現可完整支援 語音代理的視覺化分析,包含:
◆使用者語音輸入、模型語音輸出紀錄
◆工具呼叫紀錄與參數值
◆中斷、插話等即時互動狀況
透過這項升級,開發者可針對語音代理的行為進行精細調整與除錯,提升整體互動品質與使用者體驗。
★模型同步更新:GPT-4o 新語音模型登場
OpenAI更同步推出兩個新語音模型版本:
◆gpt-4o-realtime-preview-2025-06-03(Realtime API專用)
◆gpt-4o-audio-preview-2025-06-03(Chat Completions API專用)
此次模型升級帶來三項顯著改進,首先在指令遵循方面表現更加精準,能更準確理解並執行使用者的語音指令,其次在工具呼叫上更加穩定,確保在與外部功能整合時能保持一致性與可靠性;最後,語音中斷處理也更為自然,並新增了語速調整參數「speed」,讓開發者可以依據不同應用情境靈活設定語音播放速度,例如在教育類型應用中使用慢速朗讀,或在語音摘要服務中選擇快速播報,大幅提升使用彈性與互動體驗。
多家早期合作夥伴也已導入新版語音模型與工具,包括:
◆Perplexity AI:語音搜尋助理整合GPT-4o,提升查詢精準度與對話流暢度
◆Intercom(Fin Voice):AI電話客服部署RealtimeAgent,強化腳本遵循與24/7客服品質
◆Volley Games:打造RPG遊戲內的AI地牢,語音互動更富劇情張力與規則意識
此次OpenAI的四大更新意味著語音代理正式邁入「可控、安全、擴展性強」的新階段。無論是開發AI客服、語音助理、教育工具還是沉浸式遊戲,開發者都能以更直覺、穩定的方式構建語音互動體驗。未來隨著RealtimeAgent與GPT-4o的進一步普及,語音將成為AI應用不可忽視的主戰場。