AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。

AI的「思考」是如何形成的?

大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。

研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果:

關鍵發現

1. 跨語言的「思維語言」

Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。

例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。這表明Claude擁有一種跨語言的概念普遍性,能夠在不同語言間轉換和應用知識。

2. 押韻詩歌的預先規劃

研究人員原本認為 Claude 寫押韻詩時是逐字思考,直到行尾才確保押韻。但事實證明,Claude 會預先計劃。在開始寫第二行之前,它會先想出可能的押韻詞,然後圍繞這個計劃構建句子。

例如,當寫到「He saw a carrot and had to grab it」後,Claude已經在思考「rabbit」作為押韻詞,並據此規劃第二行。當研究人員人為干預,刪除「rabbit」概念時,模型轉而使用「habit」作為替代押韻詞。

3. 數學計算的平行路徑

Claude並非設計為計算器,但它能進行心算。研究發現,模型使用多條並行計算路徑:一條用於粗略估算答案,另一條專注於精確計算結果的最後一位數字。這些路徑相互作用產生最終答案。

有趣的是,如果詢問Claude如何計算,它會描述標準的計算方法(如進位法),而非它實際使用的內部策略。

4. 解釋的真實性問題

Claude有時會提供聽起來合理但實際上是「編造」的推理過程。當要求計算複雜問題時,研究者能夠通過觀察模型內部特徵,區分真實的和虛構的推理步驟。

例如,當計算0.64的平方根時,Claude展示了忠實的思考鏈。但當計算難度超出其能力範圍時,它可能會「胡說八道」,提供沒有實際計算基礎的答案。

5. 多步驟推理

當問及「Dallas所在州的首府是什麼」時,Claude不是簡單地記憶答案,而是活化表示「Dallas在Texas」的特徵,然後連接到「Texas的首府是Austin」的概念。

研究者通過人工改變中間步驟(將「Texas」換成「California」)證實了這一點,此時模型輸出從「Austin」變為「Sacramento」。

6. 幻覺產生機制

研究發現,Claude的默認行為是拒絕回答不確定的問題。當問及它熟悉的實體(如籃球運動員Michael Jordan)時,代表「已知實體」的特徵會被激活,抑制默認的拒絕回答機制。

但當這些機制出現錯誤時,就會產生幻覺。例如,當模型認出一個名字但不知道更多信息時,「已知實體」特徵可能被錯誤激活,模型隨即開始編造聽起來合理但不真實的回答。

7. 安全漏洞產生原因

研究人員還探討了為何某些提示策略能繞過安全機制。他們發現這部分源於語法一致性和安全機制之間的張力。一旦Claude開始一個句子,促使其保持語法和語義一致性的特徵會「迫使」它完成該句子,即使它檢測到應該拒絕回答。

研究意義與局限

這項研究為了解AI系統內部運作提供了新視角,但也存在局限性。即使是簡短的提示,目前的方法也只能捕捉Claude執行的部分計算過程。此外,解讀所見到的電路還需要數小時的人工努力。

隨著AI系統應用場景的拓展,這類「可解釋性研究」具有高風險但也有高回報,能夠幫助確保AI系統透明且值得信任。研究結果不僅具有科學意義,還為AI安全與監測提供了新工具。

(本文根據Anthropic公司發表的研究論文《Circuit tracing: Revealing computational graphs in language models》與《On the biology of a large language model》撰寫)

Read more

Kyle Vogt 創辦三家十億美元公司,這次他要用機器人終結你最討厭的家事

Kyle Vogt 創辦三家十億美元公司,這次他要用機器人終結你最討厭的家事

Kyle Vogt,這位成功創辦 Twitch 與 Cruise、兩家市值超過十億美元公司的連續創業家,如今將目光投向一個更具挑戰性、也更貼近日常的領域:家用機器人。他的新創事業 The Bot Company,試圖解答一個自現代科技萌芽以來,便縈繞在人們心中的夢想:我們何時能擁有一位真正的家務幫手? 這場深度對談,不僅揭示 The Bot Company 的產品哲學與商業策略,更是一位歷經多次創業浪潮洗禮的先行者,對於技術典範、團隊建構,乃至於創業初衷的深刻反思。 為何是現在?AI 賦予機器人全新靈魂 長久以來,家用機器人始終是科技界的聖杯,看似觸手可及,卻又遙不可及。從科幻小說到學術實驗室,無數原型機來來去去,但沒有一個能真正走入家庭,成為不可或缺的一員。Vogt 指出,關鍵的瓶頸在於,傳統機器人被設計來執行精準、重複的任務,它們在結構化的工廠環境中表現優異,但面對家庭這個充滿變數的場域,便顯得捉襟見肘。 家庭環境的複雜度,堪稱機器人版的「極限體能王」障礙賽。

By Fox Hsiao
川普 AI 霸權三本柱:法規鬆綁、能源自主、全球輸出,一柱都不能少!

川普 AI 霸權三本柱:法規鬆綁、能源自主、全球輸出,一柱都不能少!

川普開宗明義指出,人工智慧是本世紀最重要的技術革命,其影響力將遍及從醫療、製造到國防的每個領域。他將AI的發展視為一場攸關國家未來的激烈競賽,並斷言美國不僅是這場競賽的發起者,也必須成為最終的勝利者。他強調,不允許任何國家,特別是潛在的競爭對手,透過掌握AI技術來制定威脅美國價值觀與利益的全球規則。 為了實現「美國優先」的AI霸權,川普政府的政策將圍繞一個中心思想展開:為美國的創新者掃除一切障礙,並提供其所需的一切資源。這不僅是一句口號,更體現於他隨後簽署的一系列具體行政命令。 政策支柱一:鬆綁法規,釋放創新動能 川普論述中,最關鍵的一項政策是徹底改革美國的監管環境。他認為,當前由各州獨立制定法規的模式,將成為AI產業發展的致命枷鎖。他直言,若讓五十個州各自為政,那麼最嚴格、最保守的州法規將會成為全國的實質標準,迫使企業必須遵循最低的共同標準,從而扼殺創新與競爭力。他以過去廢除加州汽車排放標準為例,主張一個統一、理性的聯邦標準,才能避免企業陷入無盡的訴訟與法規泥沼。 他提出,政府的角色並非透過繁瑣的「紅頭繩」(red tape)來束縛產業,而是要提供明確的「綠燈」,鼓勵企業大

By Fox Hsiao
黃仁勳 : 川普總統是美國會贏得 AI 競賽的獨一無二優勢

黃仁勳 : 川普總統是美國會贏得 AI 競賽的獨一無二優勢

AI:創造就業的引擎與技能的平衡器 對於當前社會普遍擔憂 AI 將大規模取代人類工作,黃仁勳提出一個反直覺但基於企業實務的觀點。他認為,AI 的核心價值在於提升生產力。當一家公司擁有源源不絕的創新點子,AI 便成為實現這些點子的強大工具,讓企業能以前所未有的速度開發新產品、拓展新市場,進而帶動成長、創造出更多新的就業機會。他以輝達自身為例,無論是軟體工程師或晶片設計師,所有員工都已深度整合 AI 進入工作流程,結果是公司比以往任何時候都更加繁忙,因為過去許多難以實現的構想,如今都具備可行性。 更重要的是,黃仁勳將 AI 視為史上最強大的「技術平等化力量」。過去,程式設計、藝術創作或專業寫作,均設有相當高的技能門檻。如今,透過與 AI 對話,人人都能指揮電腦完成複雜任務。未來的程式語言,將不再是 C++ 或 Python,而是人類的自然語言。這意味著技術的鴻溝正被填平,每個人都有潛力成為程式設計師、藝術家或作家。 因此,真正的挑戰並非 AI

By Fox Hsiao
烏克蘭副總理闡述:AI、數據與去中心化如何成為他們扭轉戰局的關鍵

烏克蘭副總理闡述:AI、數據與去中心化如何成為他們扭轉戰局的關鍵

烏克蘭創新發展、教育、科學與技術副總理兼數位轉型部長米哈伊洛・費多羅夫(Mykhailo Fedorov)與其國防科技顧問喬治・茨哈卡亞(Georgii Tskhakaia),透過一場結合預錄影片與現場解說的深度訪談,揭示烏克蘭如何在資源極度不對等的戰爭中,憑藉科技創新、敏捷思維與數據驅動的決策,開創全新的戰爭型態。這場對話不僅是烏克蘭的戰時報告,更是一份關於未來國防科技發展的深刻洞見。 以不對稱戰略回應資源劣勢 訪談開宗明義指出,自俄羅斯全面入侵以來,烏克蘭的面貌產生根本性轉變。面對在傳統軍備、兵力與資源上均佔據絕對優勢的對手,烏克蘭深知若依循傳統的作戰思維,幾乎沒有獲勝的可能。這種現實壓力迫使烏克蘭必須尋找另一條路徑,一條更敏捷、更具成本效益且更依賴技術的道路。 顧問茨哈卡亞提出多個案例,具體說明這種「以小博大」的不對稱作戰思維如何實踐。例如,當缺乏足夠的反坦克飛彈(如標槍飛彈)時,烏克蘭工程師開發出成本僅數百美元的第一人稱視角(FPV)自殺式無人機。這些廉價的無人機卻能有效摧毀價值數百萬美元的坦克與重型裝甲,在戰線上造成巨大衝擊。 同樣的邏輯也應用在其他領域。為彌補火砲彈

By Fox Hsiao