Google推出AI記憶壓縮技術「TurboQuant」 效能不降還更省資源

▲▼Google推出AI記憶壓縮技術「TurboQuant」。(圖/Google)

▲Google推出AI記憶壓縮技術「TurboQuant」。(圖/Google)

記者吳立言/綜合報導

Google 昨(25日)發表 AI 記憶壓縮技術 TurboQuant,引發廣泛關注。不少網友將其與影集《矽谷群瞎傳》中虛構的壓縮技術「Pied Piper」相提並論,兩者同樣主打「極高壓縮效率且不影響品質」。

該影集曾描述一種可大幅縮減資料大小、近乎無損的壓縮演算法,而 TurboQuant 則將類似概念應用於 AI 系統的運算記憶體,因此引發討論。

[廣告]請繼續往下閱讀...

壓縮 AI「短期記憶」 提升效率與速度

TurboQuant 主要針對 AI 模型在推論(inference)時使用的「工作記憶」,也就是常見的 KV cache 進行優化。這類記憶會隨著對話或輸入內容增加而快速膨脹,進而影響運算速度與資源消耗。

Google 表示,透過向量量化技術(vector quantization),TurboQuant 能在不影響模型準確度的情況下,大幅降低記憶體使用量,讓 AI 在相同硬體條件下處理更多資訊。

記憶體可壓縮至 3-bit 使用量降低至少 6 倍

根據目前公開資訊,TurboQuant 可將原本常見約 32-bit 的記憶表示壓縮至約 3-bit,同時維持模型輸出品質。該技術可將 AI 推論所需的記憶體降低至少 6 倍,並有機會提升運算效率與回應速度。

Google 也同步提出兩項關鍵方法:

PolarQuant:負責執行高效率量化壓縮

QJL(Quantization-aware Joint Learning,量化感知訓練):負責模型訓練與優化

相關研究預計將於國際表徵學習大會( ICLR,International Conference on Learning Representations)2026 發表。

有望提升 AI 普及性 但仍在研究階段

若 TurboQuant 能成功應用,將有助於降低 AI 系統對記憶體的依賴,使更多裝置或服務能導入大型模型。不過,目前該技術仍屬研究成果,尚未大規模部署於實際產品中,其實際效益仍有待驗證。

值得注意的是,TurboQuant 主要改善的是 AI「推論」階段的記憶體使用,並未涵蓋模型訓練。由於訓練大型模型仍需大量運算與記憶體資源,因此整體 AI 基礎建設需求短期內仍不會大幅改變。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

孫安佐被傳國中還在喝母乳 狄鶯開嗆:我還有奶嗎?

孫安佐被傳國中還在喝母乳 狄鶯開嗆:我還有奶嗎?

【垃圾車亂倒餿水】台中環保局清潔隊員被民眾當場抓到:下次不會了

【垃圾車亂倒餿水】台中環保局清潔隊員被民眾當場抓到:下次不會了

不爽被棄單!外送員私吞剉冰、手搖飲全丟了 慘被詐欺罪送辦

不爽被棄單!外送員私吞剉冰、手搖飲全丟了 慘被詐欺罪送辦

【被酒醉爸纏住】原本很熱情的歐告直接「保持安全距離」XD

【被酒醉爸纏住】原本很熱情的歐告直接「保持安全距離」XD

小S感謝老公「堅持約飯局」 看具俊曄「眼裡漸漸有光」

小S感謝老公「堅持約飯局」 看具俊曄「眼裡漸漸有光」

讀者迴響

Gemini和ChatGPT有什麼不同?

Gemini是Google開發的AI,擅長整合Gmail、Docs、YouTube等服務,適合重度Google用戶;而ChatGPT則由OpenAI開發,操作簡單、回應速度快,是多數人入門AI的首選。

最夯影音

更多

熱門快報

回到網頁頂端