Meta發佈超大型語音AI系統 開源模型讓稀有語言「被聽見」

▲Meta 推出支援 1,600 語言+的語音 AI 系統。(圖/MetaAI)

▲Meta 推出支援 1,600 語言+的語音 AI 系統。(圖/MetaAI)

記者吳立言/綜合報導

Meta 今(11日)宣布推出名為「Omnilingual ASR」的開放原始碼語音辨識模型套件,支援超過 1,600 種語言,並涵蓋約 500 種此前從未由任何自動語音辨識(ASR)系統服務的低資源語言。

[廣告] 請繼續往下閱讀.

根據 Meta 官方文件,該模型套件包括:

*一系列參數規模從約 3 億至 70 億的 ASR 模型,涵蓋超過 1,600 種語言。

*一款名為 Omnilingual w2v 2.0 的 70 億參數多語言語音表示模型,可用於後續語音相關任務。

* 一份「Omnilingual ASR Corpus」資料集,涵蓋約 350 種過去資源稀缺的語言,與全球合作夥伴共同策劃。

[廣告] 請繼續往下閱讀..

Meta 指出,這次的開源釋出目的在於「打破語言障礙、擴大數位存取權,並賦能全球社群」。

在技術成就方面,Meta 表示其 70 億參數模型在超過 1,600 種語言中,有 78 % 的語言達成字元錯誤率(CER)低於 10 %。對於訓練資料達十小時以上的語言,則有 95 % 達到該水準。即使是訓練資料小於十小時的低資源語言,也有 36 % 達到 CER < 10 %。

Meta 表示,此次模型家族採用多樣化架構,包括 wav2vec 2.0 自監督語音表示、CTC(連續時間分類)監督式模型、以及結合語音編碼器與 Transformer 解碼器的大型語言模型-ASR 系列,並可於推理階段對新語言進行零樣本(zero-shot)適應。

該開源專案已於 GitHub 上公開,任何研究者與開發者皆可下載模型與資料集進行應用與延伸開發。在全球語言多樣性與語音科技應用方面,Omnilingual ASR 的推出代表語音識別技術從針對主流語言的階段,正式邁向涵蓋「語言長尾(long‐tail languages,在地化頻率較低)」的新里程碑。

[廣告] 請繼續往下閱讀...

對於台灣及華語圈而言,雖然該系統尚未特別標示支援哪些方言或原住民族語,但其開放模式意味著有潛力讓地方語言、少數族群語言在語音辨識應用中獲得新的支持契機。業界觀察建議政府與學界可關注此類開源工具於教育、語言保存與 AI 本土化上的應用可能。

未來 Meta 表示將持續更新該語音模型家族,以擴大支援語言數量、提高辨識精度、並優化使用環境,期待促進更多語言的「上線」與數位化。