AI 顯微鏡解密語言模型思維：窺探語言模型「大腦」的運作方式

Fox Hsiao

03 4月 2025 — 6 min read

語言模型（如Claude）的運作方式一直以來都像是一個黑盒子，Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子，了解AI系統內部的思考過程。這項研究不只具有科學價值，也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的？

大型語言模型不像傳統程式那樣由人類直接編寫，而是透過大量數據訓練而成。在這個過程中，模型自行發展出解決問題的策略，這些策略隱藏在模型執行的數十億次計算中。因此，即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感，嘗試建立一種「AI顯微鏡」，用於識別AI中的活動模式和資訊流動。透過這種方法，他們發現了一些令人驚訝的結果：

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言，那麼它「腦中」使用的是什麼語言？研究顯示，當處理不同語言時，Claude會使用共享的概念空間。

例如，當用不同語言詢問「small的反義詞是什麼」時，模型啟動相同的核心特徵來表示「小」和「相反」的概念，然後觸發「大」的概念，最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性，能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考，直到行尾才確保押韻。但事實證明，Claude 會預先計劃。在開始寫第二行之前，它會先想出可能的押韻詞，然後圍繞這個計劃構建句子。

例如，當寫到「He saw a carrot and had to grab it」後，Claude已經在思考「rabbit」作為押韻詞，並據此規劃第二行。當研究人員人為干預，刪除「rabbit」概念時，模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器，但它能進行心算。研究發現，模型使用多條並行計算路徑：一條用於粗略估算答案，另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是，如果詢問Claude如何計算，它會描述標準的計算方法（如進位法），而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時，研究者能夠通過觀察模型內部特徵，區分真實的和虛構的推理步驟。

例如，當計算0.64的平方根時，Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時，它可能會「胡說八道」，提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時，Claude不是簡單地記憶答案，而是活化表示「Dallas在Texas」的特徵，然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟（將「Texas」換成「California」）證實了這一點，此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現，Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體（如籃球運動員Michael Jordan）時，代表「已知實體」的特徵會被激活，抑制默認的拒絕回答機制。

但當這些機制出現錯誤時，就會產生幻覺。例如，當模型認出一個名字但不知道更多信息時，「已知實體」特徵可能被錯誤激活，模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子，促使其保持語法和語義一致性的特徵會「迫使」它完成該句子，即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角，但也存在局限性。即使是簡短的提示，目前的方法也只能捕捉Claude執行的部分計算過程。此外，解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展，這類「可解釋性研究」具有高風險但也有高回報，能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義，還為AI安全與監測提供了新工具。

（本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫）

川普與馬斯克和解，從輟學少年到 NASA 署長：Jared Isaacman 的太空夢

2025年11月4日，美國總統川普在他的社群平台 Truth Social 上宣布，再次提名 Jared Isaacman 擔任 NASA 署長。這是川普第二次提名他。5個月前，同一個職位，同一個人選，川普才剛撤回提名。如果這次參議院通過，42歲的 Isaacman 會創下幾項紀錄。他將是 NASA 史上最年輕的署長之一，身價14億美元讓他成為最有錢的署長，更特別的是，他會是唯一一位曾經執行過太空漫步的署長。更有趣的是他的另一個身份：NASA 的「客戶」。過去4年，Isaacman 花了數億美元向 SpaceX 購買太空任務，飛了兩次，還計畫再飛一次。現在，這個付錢買票上太空的人，可能要變成管 NASA 的人。川普在貼文中盛讚 Isaacman：「他對太空的熱情、太空人經驗、推動探索邊界的決心，讓他非常適合帶領 NASA 進入大膽的新時代。

SpaceX 為什麼突然宣布月球計畫 ? 馬斯克的大轉彎，從「月球是分心」到「大力聚焦月球」

2025 年 1 月 2 日，Elon Musk 在 X 上回應網友關於月球計畫的提問。他的答案很直接：「不，我們直接去火星。月球只是分心的東西。」這個回答很 Musk，堅定、清晰、不留餘地。他甚至詳細解釋了為什麼，要建立火星自給自足的殖民地，需要每年運送百萬噸級的物資到火星表面，所以真正重要的指標是「運送到軌道的質量」和「運送到火星表面的質量」。月球？不在這個計畫裡。十個月後，2025 年 11 月 3 日，同一個 Musk 在 X 上發文：「SpaceX 將大力聚焦月球。」「什麼改變了？」這是個好問題。十個月內，到底發生了什麼事，讓 Musk 從堅定的「

Anduril YFQ-44A 半自主無人機完成首次飛行

10 月 31 日，一架編號 YFQ-44A 的戰鬥機在美國某處完成首飛。這不是什麼大新聞，美國每年都有新飛機試飛。但這次不一樣的地方在於，從第一次飛行開始，就沒有人在操控它。不是遙控，不是有人在地面握著操縱桿。飛機自己起飛、自己飛行、自己降落。操作員只是在旁邊看著，確保它不要做出什麼瘋狂的事。歡迎來到半自主戰鬥機的時代。 556 天，從白紙到起飛這架飛機叫 YFQ-44A，製造商是 Anduril，從決定要做這架飛機，到它真的飛上天，Anduril 花了 556 天。這有多快？讓我們對比一下，F-35 Lightning II 從概念到首飛約 10 年，F-22 Raptor 從概念到首飛約 9 年，波音 787 從啟動到首飛約 6

亞馬遜股價暴漲 13% ，CEO 霸氣宣言：「我們增加產能有多快，變現就有多快。」

2025年10月30日美股盤後，亞馬遜股價暴漲 13%。對於一家市值超過 2 兆美元的科技巨頭來說，單日這樣的漲幅並不常見。上一次出現類似幅度，還是在疫情初期線上零售需求爆發的時候。但這次讓市場興奮的，不只是亮眼的財報數字，更是一個充滿矛盾的策略組合：一邊宣布裁員約 3 萬人、支付 18 億美元遣散費；一邊加碼 1250 億美元的 AI 資本支出，並承諾 2026 年繼續追加投資。市場為什麼相信這個矛盾的策略？答案藏在 CEO Andy Jassy 在財報電話會議上那句霸氣的宣言裡：「我們增加產能有多快，變現就有多快。」 AWS 雲端服務營收年增 20.2%，創下 11 季以來新高。這個數字背後的戰略意義，遠超過表面看到的百分比。過去三年，AWS 在 Google Cloud 和 Microsoft