Google TurboQuant 讓 AI 推理成本崩盤:記憶體省 6 倍、速度快 8 倍

Google TurboQuant 讓 AI 推理成本崩盤:記憶體省 6 倍、速度快 8 倍

你跟 ChatGPT 或 Gemini 聊天的時候,AI 每回一句話都要做一件很耗資源的事:記住你前面講過的所有東西。

這個「記住」的機制叫做 KV cache(key-value 快取),它是大型語言模型在推理時最大的記憶體瓶頸之一。Google Research 發表了一系列壓縮演算法,統稱為 TurboQuant,把這個瓶頸的記憶體佔用縮小 6 倍以上,注意力運算速度提升最高 8 倍,而且在基準測試中達到零精準度損失。

其中 TurboQuant 將在 ICLR 2026 發表,核心元件 PolarQuant 發表於 AISTATS 2026,另一個元件 QJL 則已發表於 AAAI。以下用白話解釋它們在做什麼。

先搞懂 KV cache 是什麼

想像你在跟一個人開會,你們講到第 30 分鐘了,這時候對方問你一個問題,你需要回想前面 30 分鐘所有人說過的話、做過的決定,才能給出一個合理的回答。

AI 模型也一樣,當你跟它對話到第 50 句的時候,模型需要「回想」前面 49 句的內容才能理解第 50 句的語境。KV cache 就是那個「會議紀錄」,它把每一句話處理過的中間結果(key 和 value 向量)存起來,讓模型不用每次都重新讀一遍所有對話。

問題是這份會議紀錄非常佔空間,每一句話都要存成高維度的向量(想像成一個有幾千個數字的清單),對話越長,KV cache 越大。一個長對話下來,KV cache 可能佔掉整個 GPU 記憶體的大部分。

這就是為什麼你跟 AI 聊太久,它有時候會「忘記」前面的內容,或者回覆速度變慢,因為記憶體不夠了。

TurboQuant 怎麼壓縮這份會議紀錄

TurboQuant 的做法可以想成兩個步驟,一個負責壓縮,一個負責修正誤差。

第一步(PolarQuant):換一種方式記錄。

原本 KV cache 裡的每個向量都用「直角座標」存(想成 X、Y、Z 三個軸的距離),這種存法需要很多位元才能精確。PolarQuant 先對向量做隨機旋轉(preconditioning),再轉成「極座標」(想成距離加上角度)。

為什麼這樣比較好壓?因為旋轉後,角度的分布會變得高度集中且可預測,可以直接映射到一個固定的「圓形網格」上壓縮,不需要傳統方法中額外的正規化(normalization)步驟,也不需要依賴資料本身來建立編碼簿。

第二步(QJL):用 1 個位元修正誤差。

壓縮一定會有誤差,PolarQuant 壓完之後還是有一些微小的偏差。QJL(Quantized Johnson-Lindenstrauss,名字來自一個數學定理)用一種很聰明的方式來修正:它只用 1 個位元(正或負,+1 或 -1)來記錄殘差,幾乎不佔額外空間,但能把誤差消除到可以忽略的程度。

兩步加在一起,TurboQuant 可以把 KV cache 從 32 位元壓到只剩 3 位元,實際記憶體節省 6 倍以上(位元數的壓縮比和實際記憶體節省不完全等價,因為有額外開銷,Google 原文一致使用 6 倍這個數字),而且不需要重新訓練模型,直接套用就好。

數字有多誇張

Google 在 Llama-3.1-8B-Instruct、Gemma、Mistral 三個開源模型上測試,用了 LongBench、Needle In A Haystack、ZeroSCROLLS 等多個基準測試。結果:

  • KV cache 記憶體縮小 6 倍以上
  • 在 NVIDIA H100 GPU 上,4 位元 TurboQuant 的注意力運算比 32 位元快 8 倍
  • 在測試的所有下游任務中精準度 零損失
  • 在 Needle In A Haystack(大海撈針)測試中,特定模型和配置下達到 完美分數
  • 不需要訓練、不需要微調
  • 執行時額外的計算開銷 可忽略不計

「零損失」這三個字是最關鍵的,過去很多壓縮方法都會在壓縮和精準度之間做取捨,壓得越小答案越不準。TurboQuant 在基準測試中壓到 3 位元還是零損失(原文對 PolarQuant 的描述是「nearly loss-less」,近乎無損),這如果在更大規模的部署中被驗證,對整個 AI 推理產業的影響會非常大。

這對你有什麼影響

講幾個直接的後果,每一個都跟你有關。

對話可以更長。 目前很多 AI 產品的對話長度受限於 KV cache 的記憶體大小。記憶體縮小 6 倍代表同樣的硬體可以支持更長的對話、更大的上下文視窗。

推理成本下降。 AI 公司最大的成本之一就是 GPU 記憶體。同樣的 GPU 可以同時服務更多使用者(因為每個使用者的 KV cache 更小了),單位成本下降。

邊緣裝置上跑 AI 變得更可行。 手機、筆電上的 AI 最大的限制就是記憶體不夠。KV cache 縮小 6 倍代表更大的模型可以塞進更小的裝置。

搜尋引擎變快。 Google 在論文中特別提到 TurboQuant 對搜尋和 AI 應用有「深遠影響」。KV cache 壓縮不只用在聊天機器人,任何需要處理長序列的 AI 任務都會受益,包括搜尋引擎的排名和摘要生成。

一句話總結

Google 找到了一種方法,讓 AI 的「短期記憶」佔用的空間縮小 6 倍、注意力運算快 8 倍,而且在測試中不忘任何細節。這是把 AI 從資料中心推向每個人手上的關鍵一步。


相關資料:

Read more

AI 時代 Claude Code 育兒法:她用 11 個代理人換來兩小時不理小孩

AI 時代 Claude Code 育兒法:她用 11 個代理人換來兩小時不理小孩

一個已經放棄技術夢的媽媽,養四個五歲以下的孩子 Jesse Genet 是 YC 2015 屆的創辦人,那家叫 Lumi 的包裝公司,幾年前賣掉了。離開戰場之後,她回歸家庭生下四個孩子,現在最大的五歲、最小的才四個月,全部在家自學。她原本打算未來五年不碰任何需要技術能力的新東西,這不是沮喪,只是承認現在的時間分配容不下那些。 六個月前這件事被翻過來了,她第一次打開終端機開始寫東西。兩三個月前她看著 Obsidian 社群的朋友聊 Claude Code,想清楚一件事:她可以趁孩子睡覺或自己玩的時候,建一群代理人替她工作。現在她有 11 個代理人,每天處理自學課表、教材採購、DoorDash 雜貨、家庭記帳,甚至能在她不碰 Mac Mini 的情況下,自己長出新的代理人。 這篇文章不是要你羨慕她有 11 個分身,真正值得記下來的是她反覆提到的一個詞:benevolent neglect,有意為之的放手。

By Fox Hsiao
NASA 月球基地計畫攤開看:三階段、七子系統、採購清單全公開

NASA 月球基地計畫攤開看:三階段、七子系統、採購清單全公開

這份文件該被當成徵求提案書來讀 2026 年 3 月 24 日,NASA 在華盛頓總部辦了一場叫「點火」(Ignition)的活動,邀請產業代表與國際太空社群到場。署長 Jared Isaacman 當場宣布,美國要在月球南極建一座月球基地(Moon Base),採分階段迭代推進。 這類宣示本身不稀奇,Artemis(NASA 自 2017 年啟動的月球重返計畫)已經喊了好幾年,大家多少聽過;真正值得停下來看的,是 NASA 在這次活動同步釋出的一份 16 頁文件《月球基地架構使用者指南》(Moon Base Architecture User's Guide)。 文件的真正讀者是產業、學界、國際夥伴,NASA 把月球基地要做的事、自己還不會的事、希望外面接哪幾塊,

By Fox Hsiao
Anthropic 成長負責人:工程師變快 3 倍之後,PM 反而變成最稀缺的人

Anthropic 成長負責人:工程師變快 3 倍之後,PM 反而變成最稀缺的人

2026 年 2 月,Anthropic 的年化營收(ARR)達到 190 億美元,比 14 個月前的 10 億美元成長了 19 倍。對照組更荒謬:Atlassian、Palantir、Snowflake 這些老牌 B2B 軟體公司,經營 15 到 20 年之後的 ARR 大約落在 45 到 60 億美元之間,Anthropic 每隔幾個月就多加一個這樣的公司規模到自己的營收上。 這樣的成長速度背後,Anthropic 的成長團隊規模小到不成比例。2025 年中,整個成長行銷只有 Austin Lau 一個人在扛,paid search、paid social、

By Fox Hsiao
AI 大神 Karpathy 的 AI 筆記流,一般人也能做到八成

AI 大神 Karpathy 的 AI 筆記流,一般人也能做到八成

我自己是幾乎不用筆記軟體的,身為一個不聰明的人,最常用的是 Apple 的備忘錄,但我覺得這篇大神的筆記流讓覺得蠻值得一試的,因為其實已經跟我現在用的 AI 工作流有點像,介於有筆記跟沒筆記中間惹 (?) 一般而言,大多數人用 ChatGPT 的方式,像是去便利商店買東西:有問題,問一下,拿到答案,關掉視窗,下次再從零開始。Karpathy 和 Lex Fridman 做的事情完全不同,他們讓 AI 幫自己蓋了一座圖書館,而且這座圖書館會自己長大。這篇文章會拆解這兩位 AI 領域最頂尖的人怎麼用 AI 做筆記,然後告訴你:不用寫程式,你也能做到八成。 先搞懂一件事:你用 AI 的方式可能一直在浪費 想像你手邊有兩個實習生,做事方式完全不同。實習生 A,你每次丟一個問題給他,他回答完就失憶了,下次問類似的問題,他又從頭查一遍。實習生

By Fox Hsiao