Google TurboQuant 讓 AI 推理成本崩盤:記憶體省 6 倍、速度快 8 倍
你跟 ChatGPT 或 Gemini 聊天的時候,AI 每回一句話都要做一件很耗資源的事:記住你前面講過的所有東西。
這個「記住」的機制叫做 KV cache(key-value 快取),它是大型語言模型在推理時最大的記憶體瓶頸之一。Google Research 發表了一系列壓縮演算法,統稱為 TurboQuant,把這個瓶頸的記憶體佔用縮小 6 倍以上,注意力運算速度提升最高 8 倍,而且在基準測試中達到零精準度損失。
其中 TurboQuant 將在 ICLR 2026 發表,核心元件 PolarQuant 發表於 AISTATS 2026,另一個元件 QJL 則已發表於 AAAI。以下用白話解釋它們在做什麼。
先搞懂 KV cache 是什麼
想像你在跟一個人開會,你們講到第 30 分鐘了,這時候對方問你一個問題,你需要回想前面 30 分鐘所有人說過的話、做過的決定,才能給出一個合理的回答。
AI 模型也一樣,當你跟它對話到第 50 句的時候,模型需要「回想」前面 49 句的內容才能理解第 50 句的語境。KV cache 就是那個「會議紀錄」,它把每一句話處理過的中間結果(key 和 value 向量)存起來,讓模型不用每次都重新讀一遍所有對話。
問題是這份會議紀錄非常佔空間,每一句話都要存成高維度的向量(想像成一個有幾千個數字的清單),對話越長,KV cache 越大。一個長對話下來,KV cache 可能佔掉整個 GPU 記憶體的大部分。
這就是為什麼你跟 AI 聊太久,它有時候會「忘記」前面的內容,或者回覆速度變慢,因為記憶體不夠了。
TurboQuant 怎麼壓縮這份會議紀錄
TurboQuant 的做法可以想成兩個步驟,一個負責壓縮,一個負責修正誤差。
第一步(PolarQuant):換一種方式記錄。
原本 KV cache 裡的每個向量都用「直角座標」存(想成 X、Y、Z 三個軸的距離),這種存法需要很多位元才能精確。PolarQuant 先對向量做隨機旋轉(preconditioning),再轉成「極座標」(想成距離加上角度)。
為什麼這樣比較好壓?因為旋轉後,角度的分布會變得高度集中且可預測,可以直接映射到一個固定的「圓形網格」上壓縮,不需要傳統方法中額外的正規化(normalization)步驟,也不需要依賴資料本身來建立編碼簿。
第二步(QJL):用 1 個位元修正誤差。
壓縮一定會有誤差,PolarQuant 壓完之後還是有一些微小的偏差。QJL(Quantized Johnson-Lindenstrauss,名字來自一個數學定理)用一種很聰明的方式來修正:它只用 1 個位元(正或負,+1 或 -1)來記錄殘差,幾乎不佔額外空間,但能把誤差消除到可以忽略的程度。
兩步加在一起,TurboQuant 可以把 KV cache 從 32 位元壓到只剩 3 位元,實際記憶體節省 6 倍以上(位元數的壓縮比和實際記憶體節省不完全等價,因為有額外開銷,Google 原文一致使用 6 倍這個數字),而且不需要重新訓練模型,直接套用就好。
數字有多誇張
Google 在 Llama-3.1-8B-Instruct、Gemma、Mistral 三個開源模型上測試,用了 LongBench、Needle In A Haystack、ZeroSCROLLS 等多個基準測試。結果:
- KV cache 記憶體縮小 6 倍以上
- 在 NVIDIA H100 GPU 上,4 位元 TurboQuant 的注意力運算比 32 位元快 8 倍
- 在測試的所有下游任務中精準度 零損失
- 在 Needle In A Haystack(大海撈針)測試中,特定模型和配置下達到 完美分數
- 不需要訓練、不需要微調
- 執行時額外的計算開銷 可忽略不計
「零損失」這三個字是最關鍵的,過去很多壓縮方法都會在壓縮和精準度之間做取捨,壓得越小答案越不準。TurboQuant 在基準測試中壓到 3 位元還是零損失(原文對 PolarQuant 的描述是「nearly loss-less」,近乎無損),這如果在更大規模的部署中被驗證,對整個 AI 推理產業的影響會非常大。
這對你有什麼影響
講幾個直接的後果,每一個都跟你有關。
對話可以更長。 目前很多 AI 產品的對話長度受限於 KV cache 的記憶體大小。記憶體縮小 6 倍代表同樣的硬體可以支持更長的對話、更大的上下文視窗。
推理成本下降。 AI 公司最大的成本之一就是 GPU 記憶體。同樣的 GPU 可以同時服務更多使用者(因為每個使用者的 KV cache 更小了),單位成本下降。
邊緣裝置上跑 AI 變得更可行。 手機、筆電上的 AI 最大的限制就是記憶體不夠。KV cache 縮小 6 倍代表更大的模型可以塞進更小的裝置。
搜尋引擎變快。 Google 在論文中特別提到 TurboQuant 對搜尋和 AI 應用有「深遠影響」。KV cache 壓縮不只用在聊天機器人,任何需要處理長序列的 AI 任務都會受益,包括搜尋引擎的排名和摘要生成。
一句話總結
Google 找到了一種方法,讓 AI 的「短期記憶」佔用的空間縮小 6 倍、注意力運算快 8 倍,而且在測試中不忘任何細節。這是把 AI 從資料中心推向每個人手上的關鍵一步。
相關資料: