AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

Share
AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的?

大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果:

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。

例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性,能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考,直到行尾才確保押韻。但事實證明,Claude 會預先計劃。在開始寫第二行之前,它會先想出可能的押韻詞,然後圍繞這個計劃構建句子。

例如,當寫到「He saw a carrot and had to grab it」後,Claude已經在思考「rabbit」作為押韻詞,並據此規劃第二行。當研究人員人為干預,刪除「rabbit」概念時,模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器,但它能進行心算。研究發現,模型使用多條並行計算路徑:一條用於粗略估算答案,另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是,如果詢問Claude如何計算,它會描述標準的計算方法(如進位法),而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時,研究者能夠通過觀察模型內部特徵,區分真實的和虛構的推理步驟。

例如,當計算0.64的平方根時,Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時,它可能會「胡說八道」,提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時,Claude不是簡單地記憶答案,而是活化表示「Dallas在Texas」的特徵,然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟(將「Texas」換成「California」)證實了這一點,此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現,Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體(如籃球運動員Michael Jordan)時,代表「已知實體」的特徵會被激活,抑制默認的拒絕回答機制。

但當這些機制出現錯誤時,就會產生幻覺。例如,當模型認出一個名字但不知道更多信息時,「已知實體」特徵可能被錯誤激活,模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子,促使其保持語法和語義一致性的特徵會「迫使」它完成該句子,即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角,但也存在局限性。即使是簡短的提示,目前的方法也只能捕捉Claude執行的部分計算過程。此外,解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展,這類「可解釋性研究」具有高風險但也有高回報,能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義,還為AI安全與監測提供了新工具。

(本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫)

Read more

把國防部當新創公司重開機:烏克蘭最年輕國防部長的五個月

把國防部當新創公司重開機:烏克蘭最年輕國防部長的五個月

烏克蘭網路上流傳一個關於費多羅夫的迷因,前後兩個版本剛好說明了這個人的轉變。早一點的版本是:「費多羅夫,能不能讓我們在 Diia App 上結婚?」現在的版本變成:「我想殺五萬個俄羅斯人。」一個把政府服務搬上手機、讓人民用 App 辦結婚的數位部長,五個月前接下了一個會用「每平方公里殲滅人數」當績效指標的位子。 2026 年 1 月,米哈伊洛·費多羅夫(Mykhailo Fedorov)從數位轉型部長轉任國防部長,成為烏克蘭史上最年輕的國防部長。他接手的爛攤子,用他自己整理的數字來看:3000 億赫夫納(hryvnia,烏克蘭貨幣,以 2026 年 6 月匯率約合 67 億美元)的預算赤字、大約 20 萬的兵力缺口、首都基輔瀕臨全面停電,而其他城市還在被沙赫德(Shahed)無人機砸。總統交給他的第一道命令很具體,把領土徵兵中心那套被罵到臭頭的強制動員機制收拾乾淨。

By Fox Hsiao
Claude 官方指南,如何打造 AI 原生新創公司

Claude 官方指南,如何打造 AI 原生新創公司

Anthropic 最近出了一本給創業者的電子書《The Founder's Playbook: Building an AI-Native Startup》,把創業的四個階段,構想(Idea)、最小可行產品(MVP)、上線(Launch)、規模化(Scale),按「AI 是核心基礎設施」拆解一遍。整本手冊其實建立在一個前提上,當寫程式、做研究、跑營運都能交給 AI agent,創辦人剩下要煩惱的,就只有方向對不對。 其中有個重要的提示,做得越快、越輕鬆,犯錯的代價反而越大,手冊引用了一個數字:在 AI 自主寫程式這類工具出現之前,就已經有 42% 的新創死於做出沒人要的東西,作者直接預測,這個比率只會往上爬。 工具把「做出來」的門檻降到接近零,卻沒有同步降低「

By Fox Hsiao
中國工程師才是真工程師:Palmer Luckey 在胡佛研究所訪談的反向結論

中國工程師才是真工程師:Palmer Luckey 在胡佛研究所訪談的反向結論

Anduril 創辦人 Palmer Luckey 近期上胡佛研究所《Uncommon Knowledge》接受 Peter Robinson 訪談。整段 53 分鐘從美國世界軍火店戰略、Anduril 怎麼挑戰洛克希德,一路聊到中國工程師密度、海軍要從三百艘擴張到一千艘。 訪談有一段冷戰小說反差的鏡頭,Palmer 要 Robinson 試試這個思想實驗:「想像雷根還在任的時候,出了一本湯姆克蘭西式的小說。他說再過 20 年,五角大廈所有最高機密的指揮管制終端、資訊顯示器跟其他電子裝置,都會在克里姆林宮監督下由蘇聯製造,而美國會以百萬計地採購。」 這當時根本不可想像,就算當虛構小說都沒人會相信。 接下來那句,他停了一下:「但這就是今天發生的事。五角大廈最大的筆電供應商是聯想,聯想是中國公司。他們總部有一根旗杆,掛著中國共產黨黨旗,下面才是聯想的 logo。」 整段論述的起點是這個畫面,Palmer 在訪談裡接著把問題往下挖了一層:美國已經把整套工程能力掏空了,而中國工程師才是真正的工程師。 「我們把真正的工程能力掏空了」 Palmer

By Fox Hsiao
新加坡外長的 AI 第二大腦:沒親手用過,就無法替國家做對決策

新加坡外長的 AI 第二大腦:沒親手用過,就無法替國家做對決策

2026 年 5 月一個下著雨的週六早上,新加坡 Capitol Kempinski 會場的舞台上,站著一位看起來不太像科技演講者的人。他先自我介紹,說自己是個退休的眼科外科醫師,繞進政壇大概繞得太久了,接著又補一句,站在這個場子裡,他覺得自己像個冒牌貨。 台下坐的是 AI Engineer Singapore 大會的觀眾,絕大多數是工程師、開發者、前沿模型團隊的人。而這位「冒牌貨」是新加坡現任外交部長 Vivian Balakrishnan。三個月前,他親手組了一套自己的 AI 助理,跑在一台兩三年前買的 Raspberry Pi 上,那台機器只有 8GB 記憶體。用了三個月之後,他在台上講了一句已經被很多媒體引用的話,說他老實講,已經不敢把它關掉了。 一個外長自己動手做 AI 工具,這件事本身就夠少見了。但他在台上講的那番話,比那套工具更值得記下來。他把整場演講收斂成三個訊息,

By Fox Hsiao