用手機就能開發多模態應用?Gemma 3n帶來開發者工具新革命

▲▼Gemma 3n。(圖/Google DeepMind)

▲Gemma 3n。(圖/Google DeepMind)

記者吳立言/綜合報導

Google DeepMind宣布全面釋出全新一代「行動裝置導向」的多模態AI模型Gemma 3n。此版本不僅強調原生支援影像、音訊、影片與文字輸入,更以高效能、低記憶體占用為核心,開啟在手機、邊緣設備上實現雲端等級AI能力的新時代。

Gemma 3n提供兩個主力版本:E2B(5B 參數)與E4B(8B 參數),在搭載創新的MatFormer(巢狀式轉換器)架構與PLE()技術下,即使在僅有2到3GB記憶體的裝置上亦能順暢運作。根據官方資料,E4B模型在LMArena多任務測試中獲得逾1300分的Elo評分,創下10B以下模型的全新紀錄。除了多模態處理與高效能表現,Gemma 3n還導入:

[廣告]請繼續往下閱讀...

KV Cache Sharing機制:加快長文本、多媒體串流處理速度,實測前置階段推理時間提升達 2 倍。

先進語音編碼器(USM):支援即時語音辨識(ASR)與語音翻譯(AST),特別在英西、英法語系表現優異。

MobileNet-V5視覺編碼器:為行動設備最佳化設計的影像處理模型,可支援高達60FPS的視訊分析任務。

Gemma 3n支援開發者利用Hugging Face、llama.cpp、Ollama、MLX等主流工具進行微調與部署,並能搭配Google AI Studio或Vertex AI平台直接測試與發布模型。DeepMind同時宣布啟動「Gemma 3n Impact Challenge」,總獎金15萬美元,鼓勵全球開發者打造具影響力的應用產品。

Gemma系列自去年推出以來,全球累積下載數已突破1.6億次,涵蓋醫療、安全、語言學習與電腦視覺等領域。Gemma 3n的全面釋出,代表著行動端AI進入高度整合、低功耗、高效能的新階段,預計將對產業與開發社群產生深遠影響。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【有聖光!】花蓮光復救災回程 列車長幽默廣播感謝超人們

【有聖光!】花蓮光復救災回程 列車長幽默廣播感謝超人們

【苦中作樂】救災一半怪手開玩搶球遊戲

【苦中作樂】救災一半怪手開玩搶球遊戲

【神級刀工】花蓮義煮團太神!不看菜就能光速狂切!一個個都是職人啊

【神級刀工】花蓮義煮團太神!不看菜就能光速狂切!一個個都是職人啊

【我們來了】長長隊伍走進阿陶莫部落!互喊加油振奮士氣:來了

【我們來了】長長隊伍走進阿陶莫部落!互喊加油振奮士氣:來了

【一輩子的心血都沒了】房屋被拆掉花蓮阿公淚「什麼都沒了」 阿嬤暖心一句話太洋蔥QQ

【一輩子的心血都沒了】房屋被拆掉花蓮阿公淚「什麼都沒了」 阿嬤暖心一句話太洋蔥QQ

讀者迴響

AI怎麼畫圖?

只要輸入簡單描述文字(例如「水晶風格的貓」),AI 工具如Midjourney、DALL·E、Bing Image Creator就能依據提示生成對應圖像。這類工具靠大量圖像資料訓練,能理解物件、風格與組合邏輯。

最夯影音

更多

熱門快報

回到網頁頂端