Google TurboQuant 讓 AI 推理成本崩盤：記憶體省 6 倍、速度快 8 倍

Fox Hsiao

25 3月 2026 — 5 min read

你跟 ChatGPT 或 Gemini 聊天的時候，AI 每回一句話都要做一件很耗資源的事：記住你前面講過的所有東西。

這個「記住」的機制叫做 KV cache（key-value 快取），它是大型語言模型在推理時最大的記憶體瓶頸之一。Google Research 發表了一系列壓縮演算法，統稱為 TurboQuant，把這個瓶頸的記憶體佔用縮小 6 倍以上，注意力運算速度提升最高 8 倍，而且在基準測試中達到零精準度損失。

其中 TurboQuant 將在 ICLR 2026 發表，核心元件 PolarQuant 發表於 AISTATS 2026，另一個元件 QJL 則已發表於 AAAI。以下用白話解釋它們在做什麼。

先搞懂 KV cache 是什麼

想像你在跟一個人開會，你們講到第 30 分鐘了，這時候對方問你一個問題，你需要回想前面 30 分鐘所有人說過的話、做過的決定，才能給出一個合理的回答。

AI 模型也一樣，當你跟它對話到第 50 句的時候，模型需要「回想」前面 49 句的內容才能理解第 50 句的語境。KV cache 就是那個「會議紀錄」，它把每一句話處理過的中間結果（key 和 value 向量）存起來，讓模型不用每次都重新讀一遍所有對話。

問題是這份會議紀錄非常佔空間，每一句話都要存成高維度的向量（想像成一個有幾千個數字的清單），對話越長，KV cache 越大。一個長對話下來，KV cache 可能佔掉整個 GPU 記憶體的大部分。

這就是為什麼你跟 AI 聊太久，它有時候會「忘記」前面的內容，或者回覆速度變慢，因為記憶體不夠了。

TurboQuant 怎麼壓縮這份會議紀錄

TurboQuant 的做法可以想成兩個步驟，一個負責壓縮，一個負責修正誤差。

第一步（PolarQuant）：換一種方式記錄。

原本 KV cache 裡的每個向量都用「直角座標」存（想成 X、Y、Z 三個軸的距離），這種存法需要很多位元才能精確。PolarQuant 先對向量做隨機旋轉（preconditioning），再轉成「極座標」（想成距離加上角度）。

為什麼這樣比較好壓？因為旋轉後，角度的分布會變得高度集中且可預測，可以直接映射到一個固定的「圓形網格」上壓縮，不需要傳統方法中額外的正規化（normalization）步驟，也不需要依賴資料本身來建立編碼簿。

第二步（QJL）：用 1 個位元修正誤差。

壓縮一定會有誤差，PolarQuant 壓完之後還是有一些微小的偏差。QJL（Quantized Johnson-Lindenstrauss，名字來自一個數學定理）用一種很聰明的方式來修正：它只用 1 個位元（正或負，+1 或 -1）來記錄殘差，幾乎不佔額外空間，但能把誤差消除到可以忽略的程度。

兩步加在一起，TurboQuant 可以把 KV cache 從 32 位元壓到只剩 3 位元，實際記憶體節省 6 倍以上（位元數的壓縮比和實際記憶體節省不完全等價，因為有額外開銷，Google 原文一致使用 6 倍這個數字），而且不需要重新訓練模型，直接套用就好。

數字有多誇張

Google 在 Llama-3.1-8B-Instruct、Gemma、Mistral 三個開源模型上測試，用了 LongBench、Needle In A Haystack、ZeroSCROLLS 等多個基準測試。結果：

KV cache 記憶體縮小 6 倍以上
在 NVIDIA H100 GPU 上，4 位元 TurboQuant 的注意力運算比 32 位元快 8 倍
在測試的所有下游任務中精準度 零損失
在 Needle In A Haystack（大海撈針）測試中，特定模型和配置下達到 完美分數
不需要訓練、不需要微調
執行時額外的計算開銷 可忽略不計

「零損失」這三個字是最關鍵的，過去很多壓縮方法都會在壓縮和精準度之間做取捨，壓得越小答案越不準。TurboQuant 在基準測試中壓到 3 位元還是零損失（原文對 PolarQuant 的描述是「nearly loss-less」，近乎無損），這如果在更大規模的部署中被驗證，對整個 AI 推理產業的影響會非常大。

這對你有什麼影響

講幾個直接的後果，每一個都跟你有關。

對話可以更長。 目前很多 AI 產品的對話長度受限於 KV cache 的記憶體大小。記憶體縮小 6 倍代表同樣的硬體可以支持更長的對話、更大的上下文視窗。

推理成本下降。 AI 公司最大的成本之一就是 GPU 記憶體。同樣的 GPU 可以同時服務更多使用者（因為每個使用者的 KV cache 更小了），單位成本下降。

邊緣裝置上跑 AI 變得更可行。 手機、筆電上的 AI 最大的限制就是記憶體不夠。KV cache 縮小 6 倍代表更大的模型可以塞進更小的裝置。

搜尋引擎變快。 Google 在論文中特別提到 TurboQuant 對搜尋和 AI 應用有「深遠影響」。KV cache 壓縮不只用在聊天機器人，任何需要處理長序列的 AI 任務都會受益，包括搜尋引擎的排名和摘要生成。

一句話總結

Google 找到了一種方法，讓 AI 的「短期記憶」佔用的空間縮小 6 倍、注意力運算快 8 倍，而且在測試中不忘任何細節。這是把 AI 從資料中心推向每個人手上的關鍵一步。

相關資料：

一個生成、一個評審，讓兩個 AI 互相對抗才能做出好東西（翻譯文）

原文作者：Prithvi Rajasekaran，Anthropic Labs 團隊成員。原文連結：https://www.anthropic.com/engineering/harness-design-long-running-apps 【關於這篇文章】你叫 AI 「自我評估」，它幾乎永遠說「很棒」，就算做出來的東西普通到不行。這是 AI 工程實作上的常見痛點，Anthropic 工程師 Prithvi Rajasekaran 花了幾個月研究這個問題，然後借用深度學習的 GAN（生成對抗網路）概念想出了解法：把「做事的 AI」和「評審的 AI」拆開，讓評審者專門挑毛病，做事者根據回饋迭代，形成有效的品質迴圈。實際效果是：用一行提示詞就能讓 AI 自主開發功能完整的全端應用程式，從復古遊戲編輯器到瀏覽器版音樂製作軟體都有。這篇文章記錄了框架演進的完整過程、真實的執行數據和花費，以及隨著模型能力提升，

NVIDIA 跟台積電三十年沒簽過合約，黃仁勳說了原因

NVIDIA 跟台積電做了幾百億美元的生意，沒有簽過合約。黃仁勳在 Lex Fridman Podcast 第 494 集的兩個半小時訪談中，談了很多關於 AI 革命、極端共同設計、CUDA 護城河的話題。但其中最讓人意外的一段，是他談到 NVIDIA 跟台積電之間的關係。「三十年了，我不知道我們做了幾百億、甚至上千億美元的生意，但我們沒有合約。」 Lex 聽完只說了一個字，「Amazing。」台積電最深的誤解黃仁勳被問到怎麼理解台積電的成功，他的回答跟大多數人想的不一樣。「關於台積電最深的誤解，是以為他們的技術就是他們的全部。好像他們有一顆很厲害的電晶體，然後如果有人做出另一顆更好的，遊戲就結束了。」他說當然不是只有電晶體，台積電的技術包含金屬化系統、封裝、3D 封裝、矽光子學，這些技術確實讓公司很特別。但真正讓台積電無可取代的是另外兩件事。第一是他們管理數百家客戶動態需求的能力，客戶的訂單同時在增加、減少、推進、拉回、換製程、改規格，

再見了 Figma ? 設計師公開他的 Claude Code 工作流：18 條設計技巧完整拆解

Tailwind CSS 的設計師 Steve Schoger 最近發了一支一小時的影片，展示他怎麼用 Claude Code 從零建出一個金融 App 的行銷首頁。影片開頭他就先打了預防針：「我對命令列還是非常新手，這些東西對我來說都很陌生。Adam Wathan 幫我做了初始設定，現在我就是有一個 Vite 專案模板，每次開新專案就複製一份。」他說自己大概只會兩件事，換目錄和啟動 Claude。但用 Claude Code 當主要設計工具一個多月以來，他做出了三層式定價頁面（含比較表、testimonial、FAQ）、Tailwind Labs 內部用的金融 dashboard，而且整個過程沒有用任何 skills 或 CLAUDE.md，就是從空白畫面開始對 Claude 講話。這支影片最有價值的部分，是他在一小時的操作過程中不斷穿插實戰設計技巧，從字型選擇、邊框處理、按鈕細節到整頁裝飾，

TERAFAB 是什麼？Tesla 200 億美元晶片工廠的野心與挑戰

月產 100 萬片晶圓，這是 Tesla 宣布的 TERAFAB 晶片製造廠的目標產能，相當於台積電目前全球總產能的 70%，塞在一座工廠裡。 3 月 22 日，Tesla 正式公布了 TERAFAB 計畫，跟 SpaceX 和 xAI 三家聯手，要在 Giga Texas 旁邊蓋全球最大的晶片製造設施。目標是年產 1 太瓦（1TW）的晶片，整合邏輯運算、記憶體和先進封裝在同一屋簷下，瞄準 2 奈米製程。預估投資 200 到 400 億美元，第一批 AI5 晶片預計 2026 年小量試產，2027 年進入量產。