雷軍發文揭露成果 小米AI技術獲 ICASSP 2026肯定

▲▼小米創辦人雷軍。(圖/雷軍微博)

▲小米創辦人雷軍。(圖/微博)

記者吳立言/綜合報導

小米創辦人雷軍今(22)日在微博發文表示,小米多項人工智慧(AI)研究成果,已獲選為國際頂級學術會議 IEEE 國際聲學、語音與訊號處理會議(ICASSP 2026)正式論文,研究主題橫跨音訊、多模態理解與生成式 AI 等多個領域。

雷軍指出,這次入選的研究涵蓋音訊理解、音樂生成評估、音訊與文字的通用預訓練、影片自動生成音效,以及長影片理解等方向,顯示小米在 AI 基礎研究上的持續投入。

[廣告]請繼續往下閱讀...

ICASSP 是由 IEEE 主辦的國際學術會議,自 1976 年舉辦至今,長期被視為音訊、語音與訊號處理領域的重要學術平台。ICASSP 2026 預計於今年 5 月在西班牙巴塞隆納登場。

大量音訊資料 讓 AI「真的聽懂」

在音訊理解方面,小米團隊提出 ACAVCaps 音訊資料集,透過自動化方式替大量音訊加上更完整、具語意的文字描述,讓 AI 不只辨識聲音類型,還能理解聲音發生的情境與內容。該資料集約包含 470 萬組音訊與文字配對,未來也將規劃開源。

針對資料分散、又涉及隱私的聯邦學習場景,小米提出 FedDCG 方法,讓模型在「沒看過的資料類型或環境」下,仍能維持穩定表現,特別適合行動裝置或邊緣運算應用。

AI 音樂生成怎麼評分?

在音樂生成領域,小米發表 FUSEMOS 評估方法,結合不同 AI 模型的優點,讓系統對「音樂好不好聽、符不符合文字描述」的判斷,更接近人類的主觀感受,有助於提升 AI 生成音樂的品質。

跨語言、跨音訊類型一次搞定

GLAP 模型則主打跨語言、跨音訊類型的理解能力,不論是語音、音樂或環境聲音,都能對應文字進行搜尋與理解,未來可應用在語音助理、車載系統與智慧家庭場景。

影片自動配音效 速度大幅提升

在影音生成方面,小米提出 MeanFlow 技術,可讓 AI 在觀看影片後快速生成對應音效,大幅縮短運算時間,同時維持音效品質與畫面同步,適合短影音、影視後製與即時互動應用。

技術將導入「人車家全生態」

小米表示,這些研究成果未來將逐步導入「人車家全生態」產品線,包括手機、智慧家電、車載系統與穿戴裝置,讓 AI 技術從研究走向實際應用。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

貝克漢兒子想拉老婆一起拍照 維多利亞側身忽略..片段瘋傳!

貝克漢兒子想拉老婆一起拍照 維多利亞側身忽略..片段瘋傳!

RAIN點名粉絲:為什麼不跳? 得知真相繁體中文暖致歉

RAIN點名粉絲:為什麼不跳? 得知真相繁體中文暖致歉

【倒車插隊?】搶車位差點撞到家人! 孕婦氣到「當晚就生」

【倒車插隊?】搶車位差點撞到家人! 孕婦氣到「當晚就生」

【從從容容拯救沙發】貓咪嘔吐醞釀中...奴才完美接住還有時間抽衛生紙

【從從容容拯救沙發】貓咪嘔吐醞釀中...奴才完美接住還有時間抽衛生紙

【香蕉大盜】猴子闖松柏嶺受天宮!偷供品後爬石柱落跑

【香蕉大盜】猴子闖松柏嶺受天宮!偷供品後爬石柱落跑

讀者迴響

ChatGPT能免費使用嗎?

有免費版本,適合多數基本用途。若升級付費(如 ChatGPT Plus),可使用更強大的GPT-4模型,回應速度快、理解力更好、支援圖片與檔案分析。免費用戶功能有限,無法使用進階工具。

最夯影音

更多

熱門快報

回到網頁頂端