AI 顯微鏡解密語言模型思維：窺探語言模型「大腦」的運作方式

語言模型（如Claude）的運作方式一直以來都像是一個黑盒子，Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子，了解AI系統內部的思考過程。這項研究不只具有科學價值，也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的？

大型語言模型不像傳統程式那樣由人類直接編寫，而是透過大量數據訓練而成。在這個過程中，模型自行發展出解決問題的策略，這些策略隱藏在模型執行的數十億次計算中。因此，即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感，嘗試建立一種「AI顯微鏡」，用於識別AI中的活動模式和資訊流動。透過這種方法，他們發現了一些令人驚訝的結果：

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言，那麼它「腦中」使用的是什麼語言？研究顯示，當處理不同語言時，Claude會使用共享的概念空間。

例如，當用不同語言詢問「small的反義詞是什麼」時，模型啟動相同的核心特徵來表示「小」和「相反」的概念，然後觸發「大」的概念，最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性，能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考，直到行尾才確保押韻。但事實證明，Claude 會預先計劃。在開始寫第二行之前，它會先想出可能的押韻詞，然後圍繞這個計劃構建句子。

例如，當寫到「He saw a carrot and had to grab it」後，Claude已經在思考「rabbit」作為押韻詞，並據此規劃第二行。當研究人員人為干預，刪除「rabbit」概念時，模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器，但它能進行心算。研究發現，模型使用多條並行計算路徑：一條用於粗略估算答案，另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是，如果詢問Claude如何計算，它會描述標準的計算方法（如進位法），而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時，研究者能夠通過觀察模型內部特徵，區分真實的和虛構的推理步驟。

例如，當計算0.64的平方根時，Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時，它可能會「胡說八道」，提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時，Claude不是簡單地記憶答案，而是活化表示「Dallas在Texas」的特徵，然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟（將「Texas」換成「California」）證實了這一點，此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現，Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體（如籃球運動員Michael Jordan）時，代表「已知實體」的特徵會被激活，抑制默認的拒絕回答機制。

但當這些機制出現錯誤時，就會產生幻覺。例如，當模型認出一個名字但不知道更多信息時，「已知實體」特徵可能被錯誤激活，模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子，促使其保持語法和語義一致性的特徵會「迫使」它完成該句子，即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角，但也存在局限性。即使是簡短的提示，目前的方法也只能捕捉Claude執行的部分計算過程。此外，解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展，這類「可解釋性研究」具有高風險但也有高回報，能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義，還為AI安全與監測提供了新工具。

（本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫）

Saronic 的無人船六月救人、七月炸港，四天後宣布蓋 32 億美元造船廠

2026 年 6 月 9 日凌晨，一架 AH-64 阿帕契攻擊直升機墜落在阿曼外海，把兩名飛行員從水裡撈起來的，是一艘 7.3 公尺長、船上沒有人的無人水面載具（USV）。美軍第五艦隊第 59 特遣隊把這艘船開過去，這是美軍第一次公開確認在實戰環境用無人船救回機組員。一個月又三天之後，7 月 12 日晚間，三艘外型一模一樣的船從波斯灣出發，一路開進伊朗班達阿巴斯（Bandar Abbas）海軍基地，撞上潛艦與艦艇維修設施引爆。美軍中央司令部隔天證實，這是美軍第一次在實戰中使用海上攻擊無人艇。同一款船，同一條產線，任務決定它今天是救生艇還是彈藥。這款船叫 Corsair，做的公司叫 Saronic Technologies，2022 年才在德州奧斯汀成立。而就在四天前的 7 月 16 日，這家成立四年的公司宣布要在德州布朗斯維爾（

Archer、Anduril 與 Thunder：一套電動飛行技術，如何同時吃下奧運與戰場

2026 年 7 月 20 日，一家叫 Archer 的公司同時活在兩個世界。在其中一個世界，它是 2028 洛杉磯奧運的獨家空中計程車供應商，要讓乘客從塞車地獄裡直接飛過去；在另一個世界，它跟國防科技公司 Anduril 一起，亮出一架要陪著阿帕契（Apache）攻擊直升機上戰場的自主攻擊旋翼機 Thunder。這架 Thunder 跟 Anduril 共同開發，用的是一個全新設計的自主垂直起降平台，而同一個平台還有一個商用版，叫 Halo，一個做國防、一個做民用。Archer 本來最出名的是載客用的空中計程車 Midnight，如今卻同時把觸角伸進戰場。一家幫奧運載客的新創，怎麼會突然做起攻擊無人機，這條線一路追下去，會牽出 Anduril 一個很少被講清楚的成長祕密。 Archer 本來是一家賣「飛天計程車」的公司先把 Archer 是誰講清楚，

前 CIA 局長在《外交事務》說明，台灣需要讀懂的事：主權國防戰略生態系

裴卓斯（David Petraeus）指揮過駐伊拉克與阿富汗聯軍、當過美國中央司令部司令，退役後接掌 CIA。7 月初，他和在烏克蘭營運 AI 非營利組織的 Clara Kaluderovic 在《外交事務》（Foreign Affairs）合寫了一篇文章，標題就點名台灣，〈台灣一直沒學到的烏克蘭課〉，副標是「問題不在無人機，在無人機周圍的一切」。文章的出發點，是擔心各國軍方把烏克蘭戰場讀成一份採購目錄。無人機便宜又有效，那就編預算買無人機，看起來這樣學最快，但兩位作者認為這樣只學到皮毛，烏克蘭真正的本事，是圍繞這些便宜武器搭起來的整套生態系，而他們判斷最可能錯過這一課的地方，正是同樣面對強鄰入侵威脅的台灣。烏克蘭真正的武器是生態系這套生態系怎麼運作，黑海看得最清楚，2022 年 2 月開戰時，烏克蘭為了不讓旗艦落入俄軍手中，自己把它鑿沉，等於一開戰就沒有海軍。兩年之內，這個沒有海軍的國家把俄軍黑海艦隊逐出塞凡堡母港，摧毀、重創超過三分之一的黑海艦艇，剩下的船只能躲到離烏克蘭最遠的港口，做法是空中無人機負責找船、

68 歲拒絕交棒、全押 AI：孫正義要讓 SoftBank 衝上 1,000 兆日圓

六月二十四日，孫正義（Masayoshi Son）站上 SoftBank 第四十六屆股東會的講台，沒有先講財報數字，而是先講了一隻鵝。十六年前，這隻鵝在市場眼中的價值是零。這場股東會的氣氛，跟一個多月前那場財報說明會不太一樣。五月那場是財務長後藤芳光主講，孫正義因為膝蓋還在復原沒上台。這次他自己來了，講了快一個半小時，從一隻會下金蛋的鵝講到他父親臨終前的最後一句話，中間夾著一個聽起來像天文數字的目標，一千兆日圓。十六年前，那隻鵝值零元孫正義用的是大家從小就聽過的那個寓言，會下金蛋的鵝。他把一顆金蛋換算成一兆日圓，然後帶大家回到十六年前。那是 2010 年，SoftBank 創立三十週年，他在股東會上發表「新三十年願景」。當時集團的持股權益價值是五兆日圓，等於五顆金蛋，扣掉兩兆日圓的負債，股東淨值（NAV）剛好三兆日圓，也就是三顆金蛋。問題出在另一個數字上，當年 SoftBank 的市值也是三兆日圓，跟淨值一模一樣。這代表什麼？孫正義的帳是這樣算的，淨值已經把帳上看得到的三顆蛋算進去了，市值卻只值三顆蛋的錢，那麼會下蛋的這隻鵝本身，