
▲Google推出AI記憶壓縮技術「TurboQuant」。(圖/Google)
記者吳立言/綜合報導
Google 昨(25日)發表 AI 記憶壓縮技術 TurboQuant,引發廣泛關注。不少網友將其與影集《矽谷群瞎傳》中虛構的壓縮技術「Pied Piper」相提並論,兩者同樣主打「極高壓縮效率且不影響品質」。
該影集曾描述一種可大幅縮減資料大小、近乎無損的壓縮演算法,而 TurboQuant 則將類似概念應用於 AI 系統的運算記憶體,因此引發討論。
壓縮 AI「短期記憶」 提升效率與速度
TurboQuant 主要針對 AI 模型在推論(inference)時使用的「工作記憶」,也就是常見的 KV cache 進行優化。這類記憶會隨著對話或輸入內容增加而快速膨脹,進而影響運算速度與資源消耗。
Google 表示,透過向量量化技術(vector quantization),TurboQuant 能在不影響模型準確度的情況下,大幅降低記憶體使用量,讓 AI 在相同硬體條件下處理更多資訊。
記憶體可壓縮至 3-bit 使用量降低至少 6 倍
根據目前公開資訊,TurboQuant 可將原本常見約 32-bit 的記憶表示壓縮至約 3-bit,同時維持模型輸出品質。該技術可將 AI 推論所需的記憶體降低至少 6 倍,並有機會提升運算效率與回應速度。
Google 也同步提出兩項關鍵方法:
PolarQuant:負責執行高效率量化壓縮
QJL(Quantization-aware Joint Learning,量化感知訓練):負責模型訓練與優化
相關研究預計將於國際表徵學習大會( ICLR,International Conference on Learning Representations)2026 發表。
有望提升 AI 普及性 但仍在研究階段
若 TurboQuant 能成功應用,將有助於降低 AI 系統對記憶體的依賴,使更多裝置或服務能導入大型模型。不過,目前該技術仍屬研究成果,尚未大規模部署於實際產品中,其實際效益仍有待驗證。
值得注意的是,TurboQuant 主要改善的是 AI「推論」階段的記憶體使用,並未涵蓋模型訓練。由於訓練大型模型仍需大量運算與記憶體資源,因此整體 AI 基礎建設需求短期內仍不會大幅改變。
