3秒就能複製聲音!阿里通義升級百聆語音模型 支援9語言18方言

▲▼ 。(圖/通義官網)

▲「百聆」語音模型 。(圖/通義官網)

記者吳立言/綜合報導

阿里巴巴旗下「通義」團隊近日宣布,旗下「百聆」語音模型推出全新版本並正式開源。官方表示,新模型僅需約 3 秒的語音樣本,即可進行跨語言、跨方言的音色複製與語音生成,支援 9 種語言與 18 種中文方言,同時可控制情緒語氣,應用場景涵蓋語音助理、直播配音與無障礙服務等。

[廣告] 請繼續往下閱讀.

據官方說明,此次升級重點放在語音生成與語音辨識兩大模型。其中,語音合成模型 Fun-CosyVoice3 在延遲表現上明顯改善,首包延遲降低約 50%,並支援雙向即時串流合成;中英混說的錯誤率也大幅下降,使專有名詞與語碼切換的發音更自然。

在技術指標上,Fun-CosyVoice3 於 zero-shot 語音合成測試中,音色相似度與內容一致性同步提升,即使在複雜語境下,錯誤率也接近真人錄音水準。官方指出,使用一段普通話錄音,即可生成粵語、日語或英語語音,且音色維持高度一致。

另一方面,語音辨識模型 Fun-ASR 也同步強化。官方數據顯示,在高噪音環境下辨識準確率可達 93%,支援多語言自由混說、中文方言與口音辨識,並進一步涵蓋歌詞與饒舌內容。串流辨識的首字延遲則縮短至約 160 毫秒,已實際應用於企業會議與語音紀錄場景。

[廣告] 請繼續往下閱讀..

此次同步開源的版本,包含輕量化的 Fun-CosyVoice3-0.5B 與 Fun-ASR-Nano-0.8B。通義表示,開源模型支援本地部署與二次開發,可供研究單位與企業依需求進行客製化微調,降低語音 AI 導入門檻。

隨著語音複製門檻持續降低,相關技術在提升效率與便利性的同時,也引發外界對濫用風險的關注。通義方面則強調,模型設計仍將持續配合合規與應用場景限制,後續發展有待市場與監管機制共同觀察。