AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的?

大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果:

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。

例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性,能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考,直到行尾才確保押韻。但事實證明,Claude 會預先計劃。在開始寫第二行之前,它會先想出可能的押韻詞,然後圍繞這個計劃構建句子。

例如,當寫到「He saw a carrot and had to grab it」後,Claude已經在思考「rabbit」作為押韻詞,並據此規劃第二行。當研究人員人為干預,刪除「rabbit」概念時,模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器,但它能進行心算。研究發現,模型使用多條並行計算路徑:一條用於粗略估算答案,另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是,如果詢問Claude如何計算,它會描述標準的計算方法(如進位法),而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時,研究者能夠通過觀察模型內部特徵,區分真實的和虛構的推理步驟。

例如,當計算0.64的平方根時,Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時,它可能會「胡說八道」,提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時,Claude不是簡單地記憶答案,而是活化表示「Dallas在Texas」的特徵,然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟(將「Texas」換成「California」)證實了這一點,此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現,Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體(如籃球運動員Michael Jordan)時,代表「已知實體」的特徵會被激活,抑制默認的拒絕回答機制。

但當這些機制出現錯誤時,就會產生幻覺。例如,當模型認出一個名字但不知道更多信息時,「已知實體」特徵可能被錯誤激活,模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子,促使其保持語法和語義一致性的特徵會「迫使」它完成該句子,即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角,但也存在局限性。即使是簡短的提示,目前的方法也只能捕捉Claude執行的部分計算過程。此外,解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展,這類「可解釋性研究」具有高風險但也有高回報,能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義,還為AI安全與監測提供了新工具。

(本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫)

Read more

SpaceX 用腿站、用筷子夾,中國選擇用繩子掛

SpaceX 用腿站、用筷子夾,中國選擇用繩子掛

2026 年 2 月 11 日上午 11 點,海南文昌航太發射場 3 號工位,一枚 67.4 公尺高的火箭點火升空。這次任務有兩個目標:測試夢舟載人太空船的逃逸系統,以及驗證火箭第一節能不能自己飛回來。 升空 66 秒後,火箭頂端的夢舟太空船啟動緊急逃逸,在最大動壓條件下彈射脫離,151 秒後七具 YF-100K 引擎關機,火箭第一節在 105 公里高空與任務酬載分離。到這裡為止,任務的前半段結束了。 接下來的六分鐘才是重點。 火箭第一節翻轉姿態、重新點燃兩具引擎,以超過每秒 1,700 公尺的速度開始減速,20 秒內降到每秒 1,300 公尺,持續調整軌道,最終在升空約 470 秒後落入南海海面,距離發射場 380

By Fox Hsiao
俄軍用 Starlink 打仗,現在被馬斯克斷網癱瘓

俄軍用 Starlink 打仗,現在被馬斯克斷網癱瘓

2026 年 2 月 5 日,SpaceX 在烏克蘭全境啟動 Starlink 白名單制度。所有未經註冊的衛星網路終端,一夕之間全部斷線。 俄軍前線的反應幾乎即時:士兵湧上 Telegram 抱怨通訊中斷,突擊行動在多個方向被迫暫停。烏克蘭國防部顧問轉述前線回報:「所有部隊的指揮管制都崩潰了。」 把這句話放在脈絡裡理解。俄羅斯,一個擁有核武的軍事大國,前線通訊竟然依賴馬斯克旗下的美國民間衛星網路服務。被切斷之後,指揮鏈就斷了。2026 年的俄軍,就是這個狀況。 Starlink:從鄉下上網到戰場生命線 Starlink 的概念不複雜。SpaceX 在低地球軌道部署了數千顆小型衛星,用戶只要買一台終端機,就能透過衛星訊號上網,不需要光纖,不需要基地台,訊號從太空直接打下來。對住在偏遠地區的人來說,這解決了一個老問題:有網路,但品質差到沒辦法正常使用。Starlink 繞過地表的距離限制,讓你在幾乎任何地方都能穩定連線。 2022 年俄烏戰爭爆發後,Starlink 迅速成為烏克蘭的關鍵基礎設施。

By Fox Hsiao
從稀土到白銀,中國的出口管制清單越來越長,記憶體會不會被加上去?

從稀土到白銀,中國的出口管制清單越來越長,記憶體會不會被加上去?

2026 年第一季,全球記憶體市場正在經歷一場罕見的供需失衡。 TrendForce 最新報告顯示,標準 DRAM 合約價單季暴漲 90% 到 95%,遠超原本預估的 55% 到 60%。NAND Flash 合約價季漲 55% 到 60%,企業級 SSD 漲幅 53% 到 58%,創下單季紀錄。IDC 等多家研究機構的共識是:這波缺貨至少持續到 2027 年,部分悲觀預測甚至認為要到 2030 年才會真正緩解。 缺貨的衝擊已經從供應鏈蔓延到消費者手上。Counterpoint Research 在去年底下修了 2026 年全球智慧型手機出貨預測,從原本的年增 3.3% 變成年減 2.1%,原因就是記憶體成本飆升,低階手機的物料成本因

By Fox Hsiao
為什麼美國和中國不能各有一個 AI 天才國度?Anthropic CEO 的時間表和他的恐懼

為什麼美國和中國不能各有一個 AI 天才國度?Anthropic CEO 的時間表和他的恐懼

「為什麼美國和中國不能各有一個天才國度?」 Dwarkesh Patel 在最新一集 podcast 中,對 Anthropic 執行長(CEO)Dario Amodei 丟出了這個直球。Amodei 沉思了一下,然後給出了一個讓人不太舒服的答案:技術上完全做得到,但戰略上不該讓它發生。 這場超過兩小時的深度訪談,涵蓋了 AI 擴展假說、實驗室商業模式、監管政策、到美中競爭的完整光譜,但最核心的部分,是 Amodei 以一個打造 AI 前沿模型的公司創辦人身分,直接闡述為什麼他認為「資料中心裡的天才國度」(Country of Geniuses in a Data Center)一旦落入威權政府手中,可能比核武更危險。 這篇文章將深入解析 Amodei 的地緣政治框架,以及支撐這個框架的商業邏輯。相關的訪談連結和逐字稿我放文末。 什麼是「資料中心裡的天才國度」? 先搞清楚

By Fox Hsiao