3秒就能複製聲音！阿里通義升級百聆語音模型　支援9語言18方言

2025年12月16日 11:55

▲「百聆」語音模型。（圖／通義官網）

記者吳立言／綜合報導

阿里巴巴旗下「通義」團隊近日宣布，旗下「百聆」語音模型推出全新版本並正式開源。官方表示，新模型僅需約 3 秒的語音樣本，即可進行跨語言、跨方言的音色複製與語音生成，支援 9 種語言與 18 種中文方言，同時可控制情緒語氣，應用場景涵蓋語音助理、直播配音與無障礙服務等。

[廣告] 請繼續往下閱讀.

據官方說明，此次升級重點放在語音生成與語音辨識兩大模型。其中，語音合成模型 Fun-CosyVoice3 在延遲表現上明顯改善，首包延遲降低約 50%，並支援雙向即時串流合成；中英混說的錯誤率也大幅下降，使專有名詞與語碼切換的發音更自然。

在技術指標上，Fun-CosyVoice3 於 zero-shot 語音合成測試中，音色相似度與內容一致性同步提升，即使在複雜語境下，錯誤率也接近真人錄音水準。官方指出，使用一段普通話錄音，即可生成粵語、日語或英語語音，且音色維持高度一致。

另一方面，語音辨識模型 Fun-ASR 也同步強化。官方數據顯示，在高噪音環境下辨識準確率可達 93%，支援多語言自由混說、中文方言與口音辨識，並進一步涵蓋歌詞與饒舌內容。串流辨識的首字延遲則縮短至約 160 毫秒，已實際應用於企業會議與語音紀錄場景。

[廣告] 請繼續往下閱讀..

此次同步開源的版本，包含輕量化的 Fun-CosyVoice3-0.5B 與 Fun-ASR-Nano-0.8B。通義表示，開源模型支援本地部署與二次開發，可供研究單位與企業依需求進行客製化微調，降低語音 AI 導入門檻。

隨著語音複製門檻持續降低，相關技術在提升效率與便利性的同時，也引發外界對濫用風險的關注。通義方面則強調，模型設計仍將持續配合合規與應用場景限制，後續發展有待市場與監管機制共同觀察。