AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的?

大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果:

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。

例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性,能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考,直到行尾才確保押韻。但事實證明,Claude 會預先計劃。在開始寫第二行之前,它會先想出可能的押韻詞,然後圍繞這個計劃構建句子。

例如,當寫到「He saw a carrot and had to grab it」後,Claude已經在思考「rabbit」作為押韻詞,並據此規劃第二行。當研究人員人為干預,刪除「rabbit」概念時,模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器,但它能進行心算。研究發現,模型使用多條並行計算路徑:一條用於粗略估算答案,另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是,如果詢問Claude如何計算,它會描述標準的計算方法(如進位法),而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時,研究者能夠通過觀察模型內部特徵,區分真實的和虛構的推理步驟。

例如,當計算0.64的平方根時,Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時,它可能會「胡說八道」,提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時,Claude不是簡單地記憶答案,而是活化表示「Dallas在Texas」的特徵,然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟(將「Texas」換成「California」)證實了這一點,此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現,Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體(如籃球運動員Michael Jordan)時,代表「已知實體」的特徵會被激活,抑制默認的拒絕回答機制。

但當這些機制出現錯誤時,就會產生幻覺。例如,當模型認出一個名字但不知道更多信息時,「已知實體」特徵可能被錯誤激活,模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子,促使其保持語法和語義一致性的特徵會「迫使」它完成該句子,即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角,但也存在局限性。即使是簡短的提示,目前的方法也只能捕捉Claude執行的部分計算過程。此外,解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展,這類「可解釋性研究」具有高風險但也有高回報,能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義,還為AI安全與監測提供了新工具。

(本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫)

Read more

如何抵抗大量無人機蜂群?Anduril Pulsar-L 將電磁戰力帶上前線,扭轉未來戰局

如何抵抗大量無人機蜂群?Anduril Pulsar-L 將電磁戰力帶上前線,扭轉未來戰局

高空之上,無數的無人機,如蝗蟲般,遮天蔽日,蠢蠢欲動。它們扇動著螺旋槳,發出低沉的嗡嗡聲,在空中盤旋襲捲著大地。戰士的目光銳利地則鎖定目標,毫不畏懼。他迅速拔出武器,槍口對準了可能存在的一切威脅。他隨時準備好,為守護他身後的一切而戰。透過簡單的控制台,看到了一切,也掌握了一切。突然,天空似乎破碎了,密密麻麻的無人機遮蔽了視線。這時,一陣金屬撞擊聲響起,地面震盪,無人機群開始墜落,失去控制,墜落於沙漠中。 這個令人屏息的場景,正生動地描繪了現代戰場的複雜與瞬息萬變,特別是面對日益普及且數量龐大的無人機威脅。而扭轉乾坤的關鍵,不再只是傳統的槍砲飛彈,更來自於一場看不見、摸不著的「無形戰爭」——電磁作戰(Electromagnetic Warfare, EW)。 長期以來,先進的電磁作戰系統因其複雜性、體積與操作難度,多半部署在大型軍艦、高價值飛機或固定的後方基地,難以有效支援最前線、最需要即時反應的戰術單位。然而,隨著科技進步與威脅型態演變(例如:大量且低成本的無人機),將強大的電磁戰力前推到「

By Fox Hsiao
YC合夥人談氛圍開發 (Vibe Coding) 的技巧

YC合夥人談氛圍開發 (Vibe Coding) 的技巧

馭 AI 而行:Vibe Coding 不只直覺,更是精準導引的新開發哲學 Y Combinator 合夥人 Tom 透過親身實驗發現,Vibe Coding 不僅能帶來令人驚豔的開發效率,更是一門可以透過學習與實踐不斷精進的技藝。這猶如當年「提示工程」興起之初,社群中不斷湧現新的竅門與最佳實踐。 然而,儘管名稱聽來不拘小節,許多能發揮 Vibe Coding 最大潛力的技巧,其實恰恰是資深軟體工程師們早已習以為常的專業工作方法。這場訪談集結 Tom 的觀察與 YC 新創團隊的實戰經驗,為我們揭示如何在與 AI 協作的新時代,更有效地將創意轉化為實際可運行的軟體。 啟動與規劃:穩健的第一步 要開始 Vibe Coding 之旅,選擇合適的工具是首要任務。對於沒有程式基礎的初學者或專注於使用者介面(UI)快速原型開發的設計師、產品經理而言,Replit 或 Lovable

By Fox Hsiao
學圍棋的時候,我其實是在重新學怎麼跟 AI 相處

學圍棋的時候,我其實是在重新學怎麼跟 AI 相處

前陣子在錄塞掐 podcast 訪談黑嘉嘉圍棋的行銷長 Yoyo 的時候,他提到他最近在做一堂圍棋課,講的是從基礎一路帶到 AI 對弈的學習體驗。 老實說,圍棋這題我以前比較少碰。不是沒興趣,是一直覺得這東西門檻太高,不知道怎麼進入門檻,也不知道怎麼學得有感。 但聊完之後我腦子一直在想:如果這個切角,是從「AI 如何陪你一起學」開始的呢? 再加上我本來就蠻推 AlphaGo 的紀錄片,那種人機交會、互相試探的過程,一直是我很著迷的議題。AI 不是工具,而是對話對象。當我們開始學會跟它互動,學會從它的角度思考,人類的學習曲線就會出現新的轉折點。 2016 年 AlphaGo 打敗李世乭那場比賽,大家應該都還記得。但我印象更深的,是李世乭幾年後在訪談裡說:AI 出現後,整體棋譜水準直接升了一個維度。 AI 不是只會快、算得準,而是下出了人類原本不會這樣選的路線。從那一刻起,我們就不只是用 AI,

By Fox Hsiao
《最後生還者》第二季首集 Future Days:末日新常態的史詩序章

《最後生還者》第二季首集 Future Days:末日新常態的史詩序章

作為一個只看過首季影集、只淺嚐遊戲 Part I 初期的資深影迷,終於等到《最後生還者》第二季開播,那種期待與興奮難以言喻。第一季以驚人的製作水準與情感深度征服全球觀眾,不僅是遊戲暢銷全球、改編後的影集更抱回艾美獎,無疑是實至名歸的肯定,當第二季首集〈未來歲月〉(Future Days)的片頭展開,那種熟悉又陌生的感受瞬間湧上心頭。 影集設定在第一季的五年之後,把我們帶到有著「正常」生活景象的懷俄明州傑克孫小鎮,這是相對安全的庇護所呈現出的末日後偏安,有組織的巡邏、運作且不斷茁壯的聚落社群,場景設計精緻入微,每一個環境細節都彷彿述說著這五年間的變遷。 最引人注目的莫過於喬爾與艾莉關係的微妙變化。第一季中那對相依為命的「父女」,如今卻瀰漫著難以言喻的疏離與緊張,也是本季片頭回顧第一季結尾那個道德兩難抉擇的結果,看著他們同框卻不再有溫馨對話,反而帶著沉默與偶發的怒氣,這種情感上的張力顯示出編劇對人性複雜度的準確把握。 影集的視覺效果有著驚人的水準,從傑克孫小鎮的冰封景觀、到廢墟超市建築的精細呈現、再到感染者的恐怖造型,每一幀畫面都經過精心設計與製作。環境細節的程度令人讚嘆,完全營造出

By Fox Hsiao