語音助手更逼真 OpenAI即時API全球開放

▲▼             。(圖/OpenAI)

▲OpenAI即時API(Realtime API) 。(圖/OpenAI)

記者吳立言/綜合報導

OpenAI宣布正式推出面向生產環境的「即時API(Realtime API)」,核心採用全新的GPT-Realtime模型,能直接生成並處理語音,省去傳統語音轉文字的步驟,進而帶來更自然、更即時的對話體驗。被視為OpenAI在語音交互技術上的重要里程碑,主要應用場景鎖定客服、教育與個人助理等領域。

新模型在技術上強化多項能力,包括辨識笑聲等非語言訊號、同一句話中流暢切換不同語言,並可依指令改變語氣,例如「以友善的法國口音」或「快速而專業」進行表達。此外,新增Cedar與Marin兩種聲音,並全面優化既有聲音樣本。根據基準測試,GPT-Realtime在Big Bench Audio準確率達82.8%(前一代為65.6%),在MultiChallenge與ComplexFuncBench上亦分別提升至30.5%與66.5%,展現對多語言及複雜指令的進一步突破。

[廣告]請繼續往下閱讀...

新版API也改善整合性,開發者可透過SIP或遠端MCP伺服器串接外部服務,並支援「可重複使用提示」以儲存設定。同時,圖像輸入功能同步上線,用戶能在對話中傳送截圖或照片,讓模型讀取文字或回答相關問題。價格方面,OpenAI宣布全面下調20%,音訊輸入每百萬token為32美元,輸出為64美元,快取輸入則僅需0.40美元。

在安全與隱私部分,OpenAI表示模型能即時終止違規對話,但仍建議開發者加設額外防護措施。歐盟用戶可選擇在境內存儲資料,企業客戶則有專屬規範,確保合規運作。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【根本天使T^T】6.0強震!印尼看護一把抱住阿嬤 網友:比家人還家人

【根本天使T^T】6.0強震!印尼看護一把抱住阿嬤 網友:比家人還家人

【小平安任務完成】國道警暖護送早產兒! 3.5小時萬人集氣太感動T^T

【小平安任務完成】國道警暖護送早產兒! 3.5小時萬人集氣太感動T^T

【我應該說話嗎?】雙胞胎哥哥欺負弟弟 媽媽分不清竟問:你是誰?

【我應該說話嗎?】雙胞胎哥哥欺負弟弟 媽媽分不清竟問:你是誰?

【被主人遺忘瘦成骷髏】整年沒吃「龜堅強」竟活下來了

【被主人遺忘瘦成骷髏】整年沒吃「龜堅強」竟活下來了

【在兇幾點的】花園鰻互瞪表情超派 感覺下一秒就開打XD

【在兇幾點的】花園鰻互瞪表情超派 感覺下一秒就開打XD

讀者迴響

Gemini和ChatGPT有什麼不同?

Gemini是Google開發的AI,擅長整合Gmail、Docs、YouTube等服務,適合重度Google用戶;而ChatGPT則由OpenAI開發,操作簡單、回應速度快,是多數人入門AI的首選。

最夯影音

更多

熱門快報

回到網頁頂端