Meta發佈超大型語音AI系統 開源模型讓稀有語言「被聽見」

▲Meta 推出支援 1,600 語言+的語音 AI 系統。(圖/MetaAI)

▲Meta 推出支援 1,600 語言+的語音 AI 系統。(圖/MetaAI)

記者吳立言/綜合報導

Meta 今(11日)宣布推出名為「Omnilingual ASR」的開放原始碼語音辨識模型套件,支援超過 1,600 種語言,並涵蓋約 500 種此前從未由任何自動語音辨識(ASR)系統服務的低資源語言。

根據 Meta 官方文件,該模型套件包括:

[廣告]請繼續往下閱讀...

*一系列參數規模從約 3 億至 70 億的 ASR 模型,涵蓋超過 1,600 種語言。

*一款名為 Omnilingual w2v 2.0 的 70 億參數多語言語音表示模型,可用於後續語音相關任務。

* 一份「Omnilingual ASR Corpus」資料集,涵蓋約 350 種過去資源稀缺的語言,與全球合作夥伴共同策劃。

Meta 指出,這次的開源釋出目的在於「打破語言障礙、擴大數位存取權,並賦能全球社群」。

在技術成就方面,Meta 表示其 70 億參數模型在超過 1,600 種語言中,有 78 % 的語言達成字元錯誤率(CER)低於 10 %。對於訓練資料達十小時以上的語言,則有 95 % 達到該水準。即使是訓練資料小於十小時的低資源語言,也有 36 % 達到 CER < 10 %。

Meta 表示,此次模型家族採用多樣化架構,包括 wav2vec 2.0 自監督語音表示、CTC(連續時間分類)監督式模型、以及結合語音編碼器與 Transformer 解碼器的大型語言模型-ASR 系列,並可於推理階段對新語言進行零樣本(zero-shot)適應。

該開源專案已於 GitHub 上公開,任何研究者與開發者皆可下載模型與資料集進行應用與延伸開發。在全球語言多樣性與語音科技應用方面,Omnilingual ASR 的推出代表語音識別技術從針對主流語言的階段,正式邁向涵蓋「語言長尾(long‐tail languages,在地化頻率較低)」的新里程碑。

對於台灣及華語圈而言,雖然該系統尚未特別標示支援哪些方言或原住民族語,但其開放模式意味著有潛力讓地方語言、少數族群語言在語音辨識應用中獲得新的支持契機。業界觀察建議政府與學界可關注此類開源工具於教育、語言保存與 AI 本土化上的應用可能。

未來 Meta 表示將持續更新該語音模型家族,以擴大支援語言數量、提高辨識精度、並優化使用環境,期待促進更多語言的「上線」與數位化。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【女神加盟】三上悠亞正式加入啦啦隊幫TPBL夢想家應援

【女神加盟】三上悠亞正式加入啦啦隊幫TPBL夢想家應援

【泥水灌進街道】明利村災情曝!馬太鞍溪便道被暴漲溪水淹沒

【泥水灌進街道】明利村災情曝!馬太鞍溪便道被暴漲溪水淹沒

李光洙穩交李先彬8.9年 李瑞鎮逼婚「不結就分手」

李光洙穩交李先彬8.9年 李瑞鎮逼婚「不結就分手」

【來不及傲嬌】柴柴一擦腳就低吼…下秒被主人拿捏啦XD

【來不及傲嬌】柴柴一擦腳就低吼…下秒被主人拿捏啦XD

【歸剛欸】被唸「別人做得到妳做不到」 女兒用爸薪水打臉XD

【歸剛欸】被唸「別人做得到妳做不到」 女兒用爸薪水打臉XD

讀者迴響

哪些AI工具支援繁體中文?

目前較主流的ChatGPT、Claude、Gemini、Perplexity、Copilot等都支援繁體中文,回覆也愈來愈自然。不過圖像生成工具有些還是以英文提示詞為主,使用時可留意。

最夯影音

更多

熱門快報

回到網頁頂端