雷軍發文揭露成果 小米AI技術獲 ICASSP 2026肯定

▲▼小米創辦人雷軍。(圖/雷軍微博)

▲小米創辦人雷軍。(圖/微博)

記者吳立言/綜合報導

小米創辦人雷軍今(22)日在微博發文表示,小米多項人工智慧(AI)研究成果,已獲選為國際頂級學術會議 IEEE 國際聲學、語音與訊號處理會議(ICASSP 2026)正式論文,研究主題橫跨音訊、多模態理解與生成式 AI 等多個領域。

[廣告] 請繼續往下閱讀.

雷軍指出,這次入選的研究涵蓋音訊理解、音樂生成評估、音訊與文字的通用預訓練、影片自動生成音效,以及長影片理解等方向,顯示小米在 AI 基礎研究上的持續投入。

ICASSP 是由 IEEE 主辦的國際學術會議,自 1976 年舉辦至今,長期被視為音訊、語音與訊號處理領域的重要學術平台。ICASSP 2026 預計於今年 5 月在西班牙巴塞隆納登場。

大量音訊資料 讓 AI「真的聽懂」

在音訊理解方面,小米團隊提出 ACAVCaps 音訊資料集,透過自動化方式替大量音訊加上更完整、具語意的文字描述,讓 AI 不只辨識聲音類型,還能理解聲音發生的情境與內容。該資料集約包含 470 萬組音訊與文字配對,未來也將規劃開源。

[廣告] 請繼續往下閱讀..

針對資料分散、又涉及隱私的聯邦學習場景,小米提出 FedDCG 方法,讓模型在「沒看過的資料類型或環境」下,仍能維持穩定表現,特別適合行動裝置或邊緣運算應用。

AI 音樂生成怎麼評分?

在音樂生成領域,小米發表 FUSEMOS 評估方法,結合不同 AI 模型的優點,讓系統對「音樂好不好聽、符不符合文字描述」的判斷,更接近人類的主觀感受,有助於提升 AI 生成音樂的品質。

跨語言、跨音訊類型一次搞定

[廣告] 請繼續往下閱讀...

GLAP 模型則主打跨語言、跨音訊類型的理解能力,不論是語音、音樂或環境聲音,都能對應文字進行搜尋與理解,未來可應用在語音助理、車載系統與智慧家庭場景。

影片自動配音效 速度大幅提升

在影音生成方面,小米提出 MeanFlow 技術,可讓 AI 在觀看影片後快速生成對應音效,大幅縮短運算時間,同時維持音效品質與畫面同步,適合短影音、影視後製與即時互動應用。

技術將導入「人車家全生態」

小米表示,這些研究成果未來將逐步導入「人車家全生態」產品線,包括手機、智慧家電、車載系統與穿戴裝置,讓 AI 技術從研究走向實際應用。