雷軍發文揭露成果 小米AI技術獲 ICASSP 2026肯定

▲▼小米創辦人雷軍。(圖/雷軍微博)

▲小米創辦人雷軍。(圖/微博)

記者吳立言/綜合報導

小米創辦人雷軍今(22)日在微博發文表示,小米多項人工智慧(AI)研究成果,已獲選為國際頂級學術會議 IEEE 國際聲學、語音與訊號處理會議(ICASSP 2026)正式論文,研究主題橫跨音訊、多模態理解與生成式 AI 等多個領域。

雷軍指出,這次入選的研究涵蓋音訊理解、音樂生成評估、音訊與文字的通用預訓練、影片自動生成音效,以及長影片理解等方向,顯示小米在 AI 基礎研究上的持續投入。

[廣告]請繼續往下閱讀...

ICASSP 是由 IEEE 主辦的國際學術會議,自 1976 年舉辦至今,長期被視為音訊、語音與訊號處理領域的重要學術平台。ICASSP 2026 預計於今年 5 月在西班牙巴塞隆納登場。

大量音訊資料 讓 AI「真的聽懂」

在音訊理解方面,小米團隊提出 ACAVCaps 音訊資料集,透過自動化方式替大量音訊加上更完整、具語意的文字描述,讓 AI 不只辨識聲音類型,還能理解聲音發生的情境與內容。該資料集約包含 470 萬組音訊與文字配對,未來也將規劃開源。

針對資料分散、又涉及隱私的聯邦學習場景,小米提出 FedDCG 方法,讓模型在「沒看過的資料類型或環境」下,仍能維持穩定表現,特別適合行動裝置或邊緣運算應用。

AI 音樂生成怎麼評分?

在音樂生成領域,小米發表 FUSEMOS 評估方法,結合不同 AI 模型的優點,讓系統對「音樂好不好聽、符不符合文字描述」的判斷,更接近人類的主觀感受,有助於提升 AI 生成音樂的品質。

跨語言、跨音訊類型一次搞定

GLAP 模型則主打跨語言、跨音訊類型的理解能力,不論是語音、音樂或環境聲音,都能對應文字進行搜尋與理解,未來可應用在語音助理、車載系統與智慧家庭場景。

影片自動配音效 速度大幅提升

在影音生成方面,小米提出 MeanFlow 技術,可讓 AI 在觀看影片後快速生成對應音效,大幅縮短運算時間,同時維持音效品質與畫面同步,適合短影音、影視後製與即時互動應用。

技術將導入「人車家全生態」

小米表示,這些研究成果未來將逐步導入「人車家全生態」產品線,包括手機、智慧家電、車載系統與穿戴裝置,讓 AI 技術從研究走向實際應用。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

見鴻海豪抽1000萬紅包 Lulu.陳漢典傻眼:沒辦法主持

見鴻海豪抽1000萬紅包 Lulu.陳漢典傻眼:沒辦法主持

【老闆神救援】女童誤吞彈珠臉發白 台東民宿老闆哈姆立克搶回一命

【老闆神救援】女童誤吞彈珠臉發白 台東民宿老闆哈姆立克搶回一命

在古代如何辨識穿越者

在古代如何辨識穿越者

只靠薪水不夠穩:2026從年終獎金開始,佈局「商辦包租公」穩賺現金流

只靠薪水不夠穩:2026從年終獎金開始,佈局「商辦包租公」穩賺現金流

【我只是想騎車QQ】結果遇到兩隻貓在機車上談戀愛

【我只是想騎車QQ】結果遇到兩隻貓在機車上談戀愛

讀者迴響

聊天AI哪個支援中文最好?

目前ChatGPT、Claude、Gemini都支援繁體中文,回覆自然,初學者建議從ChatGPT開始。

最夯影音

更多

熱門快報

回到網頁頂端