AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的?

大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果:

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。

例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性,能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考,直到行尾才確保押韻。但事實證明,Claude 會預先計劃。在開始寫第二行之前,它會先想出可能的押韻詞,然後圍繞這個計劃構建句子。

例如,當寫到「He saw a carrot and had to grab it」後,Claude已經在思考「rabbit」作為押韻詞,並據此規劃第二行。當研究人員人為干預,刪除「rabbit」概念時,模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器,但它能進行心算。研究發現,模型使用多條並行計算路徑:一條用於粗略估算答案,另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是,如果詢問Claude如何計算,它會描述標準的計算方法(如進位法),而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時,研究者能夠通過觀察模型內部特徵,區分真實的和虛構的推理步驟。

例如,當計算0.64的平方根時,Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時,它可能會「胡說八道」,提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時,Claude不是簡單地記憶答案,而是活化表示「Dallas在Texas」的特徵,然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟(將「Texas」換成「California」)證實了這一點,此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現,Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體(如籃球運動員Michael Jordan)時,代表「已知實體」的特徵會被激活,抑制默認的拒絕回答機制。

但當這些機制出現錯誤時,就會產生幻覺。例如,當模型認出一個名字但不知道更多信息時,「已知實體」特徵可能被錯誤激活,模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子,促使其保持語法和語義一致性的特徵會「迫使」它完成該句子,即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角,但也存在局限性。即使是簡短的提示,目前的方法也只能捕捉Claude執行的部分計算過程。此外,解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展,這類「可解釋性研究」具有高風險但也有高回報,能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義,還為AI安全與監測提供了新工具。

(本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫)

Read more

兩週股價從 31 塊飆漲到 200 塊的 Circle,Coinbase 才是最大獲利者?

兩週股價從 31 塊飆漲到 200 塊的 Circle,Coinbase 才是最大獲利者?

以下內容主要是「硅谷 101 E196|稳定币之战:Circle崛起之路与传统金融入局的新势力角逐 」的內容,推薦所有對穩定幣有興趣的人收聽。 美元穩定幣 USDC 的母公司 Circle 在紐約證交所成功上市,首兩日股價一度飆漲近四倍,市值突破兩百億美元,引發市場高度關注。這場資本盛宴不僅是一家加密企業的成功,更像一枚信號彈,正式宣告全球穩定幣的商業戰爭進入白熱化階段。 這場競賽的參與者,橫跨華爾街傳統金融巨頭、矽谷科技公司,以及加密原生勢力,而美國國會正在推進的《天才法案》(GENIUS Act),則成為左右戰局最關鍵的變數。 本集深入剖析 Circle 的崛起之路、與交易所 Coinbase 複雜的共生關係、主要競爭對手 USDT 的獨特獲利模式,並展望穩定幣在未來全球支付體系中的宏大前景。 一、監管清晰化預期:Circle 上市引爆市場熱情的催化劑 Circle 上市之所以獲得市場狂熱追捧,核心原因在於「預期」。市場普遍預期美國即將通過的《天才法案》,會為穩定幣提供一個清晰的監管框架。過去,

By Fox Hsiao
穩定幣的過去、現在與未來,如何評估穩定幣機會避免賠錢,傳統銀行業的滅絕級事件

穩定幣的過去、現在與未來,如何評估穩定幣機會避免賠錢,傳統銀行業的滅絕級事件

原文 Assume The Position / 原作者 Arthur Hayes 雖然 Circle 的執行長 Jeremy Allaire 不得不聽從他的「老爹金主」Coinbase 執行長 Brian Armstrong 的指示「就位」,但我希望對於那些在公開股票市場交易任何與「穩定幣」相關標的的人來說,這篇文章可以防止當促銷者將狗屎塞入毫無頭緒的賭徒屁股時,你們的括約肌迅速擴張。有了這個前言,我將開始討論穩定幣市場的過去、現在和未來。 在資本市場中,專業加密貨幣交易員有些獨特,因為要生存和發展,需要深入了解資金如何在整個全球法定貨幣銀行體系中流動。股票選擇者或外匯賭徒不需要知道股票和/或貨幣是如何結算和轉帳的。經紀人(必須使用其服務進行交易)會在幕後默默地提供這項服務。 首先,購買你的第一個比特幣並不容易;不清楚什麼是最好和最安全的選擇。對大多數人來說,至少在我 2013 年開始涉足加密貨幣時,第一步是直接將法幣電匯給另一個人,或支付實體現金,從他們那裡購買比特幣。 然後,你會進階到在交易所交易,交易所提供雙向市場,

By Fox Hsiao
加密貨幣金融卡 EtherFi 與 RedotPay 說明與推薦 ,回饋 3% 與出金怎麼選

加密貨幣金融卡 EtherFi 與 RedotPay 說明與推薦 ,回饋 3% 與出金怎麼選

隨著加密貨幣在全球加速普及,使用加密貨幣,尤其是使用穩定幣消費的需求也變得前所未有的迫切。數位資產過去大多數僅限於在交易所交易,或作為投資存放在錢包裡,但如今隨著加密貨幣金融卡的普及,正使得數位資產的使用逐漸走入日常生活。 加密貨幣金融卡可以將比特幣、以太幣或穩定幣等加密貨幣儲值到卡片中,並使用這些資金以美金或者台幣等法定貨幣來支付商品和服務。 與提供信用額度的信用卡不同,加密貨幣金融卡必須使用數位資產預先儲值,在儲值後,它將在每筆交易當下自動轉換為法定貨幣,可以像使用傳統簽帳金融卡一樣使用該卡,無需手動兌換,儲多少用多少。 我怎麼加密貨幣金融卡消費? 其實跟一般的信用卡消費相同,唯一需要注意的是,當你在刷卡的時候會詢問你要利用當地貨幣或者是美金結這筆消費,根據業內人士建議,通常是選擇發卡的幣別,比如說 RedotPay 我們拿到的會是美金卡,所以請用美金計算該筆消費。 * Apple Pay 類的行動支付:大部分的加密貨幣金融卡平台支援 Apple Pay、Google Pay 等,所以可以在實體店頭利用手機感應支付。 * 店內付款:在任何接受實體信用卡的刷卡機上使用

By Fox Hsiao
90億美金獨角獸 Cursor CEO:我們尋找的不是碼農,而是有品味的創造者

90億美金獨角獸 Cursor CEO:我們尋找的不是碼農,而是有品味的創造者

本集 Y Combinator 的掌舵手 Garry Tan 對話的主角,是 AnySphere 的共同創辦人兼執行長 Michael Truell。他所打造的 AI 輔助程式開發平台 Cursor,正掀起一場寧靜卻深刻的革命。成立僅僅 20 個月,年度經常性收入(ARR)便衝破一億美元,公司估值飆升至 90 億美元。 在這場由 Garry Tan 主持的深度訪談中,Truell 揭示的並非僅是商業上的巨大成功,而是一個更為顛覆性的宏大願景:一個「後程式碼時代」的到來,一個程式開發的典範即將被徹底改寫的未來。 Truell 與他在麻省理工學院結識的夥伴們,正大膽地押注一個夢想——將軟體創造這門複雜的工藝,從逐行敲打程式碼的傳統模式,進化到更高維度的「意圖驅動」時代。開發者只需用自然語言描述想法,AI 便能將其轉化為具體的軟體功能。這不僅是效率的提升,更是對創造力的一次解放。

By Fox Hsiao