3秒就能複製聲音!阿里通義升級百聆語音模型 支援9語言18方言

▲▼ 。(圖/通義官網)

▲「百聆」語音模型 。(圖/通義官網)

記者吳立言/綜合報導

阿里巴巴旗下「通義」團隊近日宣布,旗下「百聆」語音模型推出全新版本並正式開源。官方表示,新模型僅需約 3 秒的語音樣本,即可進行跨語言、跨方言的音色複製與語音生成,支援 9 種語言與 18 種中文方言,同時可控制情緒語氣,應用場景涵蓋語音助理、直播配音與無障礙服務等。

據官方說明,此次升級重點放在語音生成與語音辨識兩大模型。其中,語音合成模型 Fun-CosyVoice3 在延遲表現上明顯改善,首包延遲降低約 50%,並支援雙向即時串流合成;中英混說的錯誤率也大幅下降,使專有名詞與語碼切換的發音更自然。

[廣告]請繼續往下閱讀...

▲▼             。(圖/通義官網)

在技術指標上,Fun-CosyVoice3 於 zero-shot 語音合成測試中,音色相似度與內容一致性同步提升,即使在複雜語境下,錯誤率也接近真人錄音水準。官方指出,使用一段普通話錄音,即可生成粵語、日語或英語語音,且音色維持高度一致。

另一方面,語音辨識模型 Fun-ASR 也同步強化。官方數據顯示,在高噪音環境下辨識準確率可達 93%,支援多語言自由混說、中文方言與口音辨識,並進一步涵蓋歌詞與饒舌內容。串流辨識的首字延遲則縮短至約 160 毫秒,已實際應用於企業會議與語音紀錄場景。

此次同步開源的版本,包含輕量化的 Fun-CosyVoice3-0.5B 與 Fun-ASR-Nano-0.8B。通義表示,開源模型支援本地部署與二次開發,可供研究單位與企業依需求進行客製化微調,降低語音 AI 導入門檻。

隨著語音複製門檻持續降低,相關技術在提升效率與便利性的同時,也引發外界對濫用風險的關注。通義方面則強調,模型設計仍將持續配合合規與應用場景限制,後續發展有待市場與監管機制共同觀察。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

胡瓜修杰楷送別林光寧 王偉忠追憶:一路好走

胡瓜修杰楷送別林光寧 王偉忠追憶:一路好走

【被硬控了】邊牧會怕小寶寶但看到手勢還是會饋頭

【被硬控了】邊牧會怕小寶寶但看到手勢還是會饋頭

被王嘉爾「大力一拽」 華晨宇半年舊疾竟意外康復!

被王嘉爾「大力一拽」 華晨宇半年舊疾竟意外康復!

蕭敬騰淚別岳父:對我只有更好  曾被林光寧撂重話「終於完整了」

蕭敬騰淚別岳父:對我只有更好  曾被林光寧撂重話「終於完整了」

王心凌助攻團隊夥伴 演唱會變求婚現場!

王心凌助攻團隊夥伴 演唱會變求婚現場!

讀者迴響

Midjourney是什麼?

Midjourney是AI影像生成工具,只需輸入文字就能畫出照片級圖片,適合創作、設計參考使用。

最夯影音

更多

熱門快報

回到網頁頂端