Meta發佈超大型語音AI系統 開源模型讓稀有語言「被聽見」

▲Meta 推出支援 1,600 語言+的語音 AI 系統。(圖/MetaAI)

▲Meta 推出支援 1,600 語言+的語音 AI 系統。(圖/MetaAI)

記者吳立言/綜合報導

Meta 今(11日)宣布推出名為「Omnilingual ASR」的開放原始碼語音辨識模型套件,支援超過 1,600 種語言,並涵蓋約 500 種此前從未由任何自動語音辨識(ASR)系統服務的低資源語言。

根據 Meta 官方文件,該模型套件包括:

[廣告]請繼續往下閱讀...

*一系列參數規模從約 3 億至 70 億的 ASR 模型,涵蓋超過 1,600 種語言。

*一款名為 Omnilingual w2v 2.0 的 70 億參數多語言語音表示模型,可用於後續語音相關任務。

* 一份「Omnilingual ASR Corpus」資料集,涵蓋約 350 種過去資源稀缺的語言,與全球合作夥伴共同策劃。

Meta 指出,這次的開源釋出目的在於「打破語言障礙、擴大數位存取權,並賦能全球社群」。

在技術成就方面,Meta 表示其 70 億參數模型在超過 1,600 種語言中,有 78 % 的語言達成字元錯誤率(CER)低於 10 %。對於訓練資料達十小時以上的語言,則有 95 % 達到該水準。即使是訓練資料小於十小時的低資源語言,也有 36 % 達到 CER < 10 %。

Meta 表示,此次模型家族採用多樣化架構,包括 wav2vec 2.0 自監督語音表示、CTC(連續時間分類)監督式模型、以及結合語音編碼器與 Transformer 解碼器的大型語言模型-ASR 系列,並可於推理階段對新語言進行零樣本(zero-shot)適應。

該開源專案已於 GitHub 上公開,任何研究者與開發者皆可下載模型與資料集進行應用與延伸開發。在全球語言多樣性與語音科技應用方面,Omnilingual ASR 的推出代表語音識別技術從針對主流語言的階段,正式邁向涵蓋「語言長尾(long‐tail languages,在地化頻率較低)」的新里程碑。

對於台灣及華語圈而言,雖然該系統尚未特別標示支援哪些方言或原住民族語,但其開放模式意味著有潛力讓地方語言、少數族群語言在語音辨識應用中獲得新的支持契機。業界觀察建議政府與學界可關注此類開源工具於教育、語言保存與 AI 本土化上的應用可能。

未來 Meta 表示將持續更新該語音模型家族,以擴大支援語言數量、提高辨識精度、並優化使用環境,期待促進更多語言的「上線」與數位化。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【兄妹超有愛】台東強震尖叫站不穩!小哥哥抱過守護

【兄妹超有愛】台東強震尖叫站不穩!小哥哥抱過守護

粿粿、范姜彥豐現身法院 平安夜正面交鋒

粿粿、范姜彥豐現身法院 平安夜正面交鋒

【北捷驚魂】捷運北門站驚傳大奔逃 男子敲傘大叫「全車嚇跑」釀1傷

【北捷驚魂】捷運北門站驚傳大奔逃 男子敲傘大叫「全車嚇跑」釀1傷

安心亞驚覺「和阿Ken滿合的」 被王偉忠湊對:他可以來競爭

安心亞驚覺「和阿Ken滿合的」 被王偉忠湊對:他可以來競爭

認和霍建華:沒想過會在一起 林心如曝10年朋友變夫妻關鍵

認和霍建華:沒想過會在一起 林心如曝10年朋友變夫妻關鍵

讀者迴響

AI怎麼畫圖?

只要輸入簡單描述文字(例如「水晶風格的貓」),AI 工具如Midjourney、DALL·E、Bing Image Creator就能依據提示生成對應圖像。這類工具靠大量圖像資料訓練,能理解物件、風格與組合邏輯。

最夯影音

更多

熱門快報

回到網頁頂端