Meta發佈超大型語音AI系統　開源模型讓稀有語言「被聽見」

▲Meta 推出支援 1,600 語言＋的語音 AI 系統。（圖／MetaAI）

▲Meta 推出支援 1,600 語言＋的語音 AI 系統。（圖／MetaAI）

記者吳立言／綜合報導

Meta 今（11日）宣布推出名為「Omnilingual ASR」的開放原始碼語音辨識模型套件，支援超過 1,600 種語言，並涵蓋約 500 種此前從未由任何自動語音辨識（ASR）系統服務的低資源語言。

根據 Meta 官方文件，該模型套件包括：

[廣告]請繼續往下閱讀...

＊一系列參數規模從約 3 億至 70 億的 ASR 模型，涵蓋超過 1,600 種語言。

＊一款名為 Omnilingual w2v 2.0 的 70 億參數多語言語音表示模型，可用於後續語音相關任務。

＊一份「Omnilingual ASR Corpus」資料集，涵蓋約 350 種過去資源稀缺的語言，與全球合作夥伴共同策劃。

Meta 指出，這次的開源釋出目的在於「打破語言障礙、擴大數位存取權，並賦能全球社群」。

在技術成就方面，Meta 表示其 70 億參數模型在超過 1,600 種語言中，有 78 % 的語言達成字元錯誤率（CER）低於 10 %。對於訓練資料達十小時以上的語言，則有 95 % 達到該水準。即使是訓練資料小於十小時的低資源語言，也有 36 % 達到 CER < 10 %。

Meta 表示，此次模型家族採用多樣化架構，包括 wav2vec 2.0 自監督語音表示、CTC（連續時間分類）監督式模型、以及結合語音編碼器與 Transformer 解碼器的大型語言模型-ASR 系列，並可於推理階段對新語言進行零樣本（zero-shot）適應。

該開源專案已於 GitHub 上公開，任何研究者與開發者皆可下載模型與資料集進行應用與延伸開發。在全球語言多樣性與語音科技應用方面，Omnilingual ASR 的推出代表語音識別技術從針對主流語言的階段，正式邁向涵蓋「語言長尾（long‐tail languages，在地化頻率較低）」的新里程碑。

Introducing Meta Omnilingual Automatic Speech Recognition (ASR), a suite of models providing ASR capabilities for over 1,600 languages, including 500 low-coverage languages never before served by any ASR system.

While most ASR systems focus on a limited set of languages that are… pic.twitter.com/D6Xv6c1MLy
— AI at Meta (@AIatMeta) November 10, 2025