雷軍發文揭露成果　小米AI技術獲 ICASSP 2026肯定

2026年01月22日 15:46

▲小米創辦人雷軍。（圖／微博）

記者吳立言／綜合報導

小米創辦人雷軍今（22）日在微博發文表示，小米多項人工智慧（AI）研究成果，已獲選為國際頂級學術會議 IEEE 國際聲學、語音與訊號處理會議（ICASSP 2026）正式論文，研究主題橫跨音訊、多模態理解與生成式 AI 等多個領域。

[廣告] 請繼續往下閱讀.

雷軍指出，這次入選的研究涵蓋音訊理解、音樂生成評估、音訊與文字的通用預訓練、影片自動生成音效，以及長影片理解等方向，顯示小米在 AI 基礎研究上的持續投入。

ICASSP 是由 IEEE 主辦的國際學術會議，自 1976 年舉辦至今，長期被視為音訊、語音與訊號處理領域的重要學術平台。ICASSP 2026 預計於今年 5 月在西班牙巴塞隆納登場。

大量音訊資料　讓 AI「真的聽懂」

在音訊理解方面，小米團隊提出 ACAVCaps 音訊資料集，透過自動化方式替大量音訊加上更完整、具語意的文字描述，讓 AI 不只辨識聲音類型，還能理解聲音發生的情境與內容。該資料集約包含 470 萬組音訊與文字配對，未來也將規劃開源。

[廣告] 請繼續往下閱讀..

針對資料分散、又涉及隱私的聯邦學習場景，小米提出 FedDCG 方法，讓模型在「沒看過的資料類型或環境」下，仍能維持穩定表現，特別適合行動裝置或邊緣運算應用。

AI 音樂生成怎麼評分？

在音樂生成領域，小米發表 FUSEMOS 評估方法，結合不同 AI 模型的優點，讓系統對「音樂好不好聽、符不符合文字描述」的判斷，更接近人類的主觀感受，有助於提升 AI 生成音樂的品質。

跨語言、跨音訊類型一次搞定

[廣告] 請繼續往下閱讀...

GLAP 模型則主打跨語言、跨音訊類型的理解能力，不論是語音、音樂或環境聲音，都能對應文字進行搜尋與理解，未來可應用在語音助理、車載系統與智慧家庭場景。

影片自動配音效　速度大幅提升

在影音生成方面，小米提出 MeanFlow 技術，可讓 AI 在觀看影片後快速生成對應音效，大幅縮短運算時間，同時維持音效品質與畫面同步，適合短影音、影視後製與即時互動應用。

技術將導入「人車家全生態」

小米表示，這些研究成果未來將逐步導入「人車家全生態」產品線，包括手機、智慧家電、車載系統與穿戴裝置，讓 AI 技術從研究走向實際應用。