《苦澀的教訓》新科圖靈獎得主作者專訪,現在的大型模型 AI 研究其實只是招魂

《苦澀的教訓》新科圖靈獎得主作者專訪,現在的大型模型 AI 研究其實只是招魂

「如果我們能理解一隻松鼠,我們幾乎就走完通往智慧的所有道路。」

這句斷言,不像出自一位電腦科學家之口,更像是一位探索自然的哲學家。然而,說這話的正是 Richard Sutton,當代人工智慧領域的巨擘、強化學習(Reinforcement Learning)的奠基者,也是新科圖靈獎得主。

當全世界為那些能上月球、造晶片的語言模型歡呼,認為它們是通往通用人工智慧(AGI)最清晰的路徑時,Sutton 卻選擇轉身,潑下一盆名為「現實」的冷水。他並非否定大型語言模型(LLM)的驚人成就,而是對其背後的哲學提出根本性質疑。

但,這就是智慧的全貌嗎?在他看來,整個領域可能正走在一條風景雖好,卻通往懸崖的死胡同。


1. 模仿,不是學習 — 為何說目前的AI只是個「超級圖書館員」?

這場深刻的典範分歧,始於一個根本問題:什麼是真正的「學習」?

Sutton 認為,當前大型模型的運作方式,更接近於一種大規模、高擬真度的「模仿」,而非理解。

「大型語言模型是關於模仿人類,做人類說你該做的事。它們不是關於自己想出該做什麼。」

他一針見血地指出,模型所學習的數萬億詞元(token),本質上是人類智慧的「二手資料」。它透過預測下一個詞元,學會用極其逼真的方式模仿人類的風格與知識。

如果說,大型語言模型像一個博覽群書、記憶力超群的圖書館學家,能引經據典、對答如流;那麼,Sutton 追求的智慧體,則更像一個深入荒野、親身試誤的探險家

圖書館學家能預測一本書的下一頁會寫什麼,但探險家才能預測,翻過下一座山丘後,世界會給予什麼真實的回饋。這就是關鍵差異:LLM 缺少一個關於外部世界的真實「目標」(Goal)。在它們的世界,沒有真正的「對」與「錯」,只有統計上的「像」與「不像」。

Sutton 強調,智慧的精髓,恰恰在於擁有目標,並為了達成目標而在真實世界中採取行動。一個智慧體之所以是智慧體,是因為它想改變世界,而不僅僅是描述世界。


2. 真正的智慧,源自「探險家」精神

那麼,Sutton 心中的「探險家」,該如何誕生?答案不在於閱讀更多的地圖,而在於親自踏上旅程。他將這條旅程,稱為「經驗之流」(Stream of Experience)。

這是一條由感知(Sensation)、行動(Action)、獎勵(Reward) 組成的永恆河流。任何生命體,從松鼠到人類,都在這條河流中學習。牠採取行動,觀察後果,並根據後果是好是壞,來調整未來的策略。這才是學習的第一手資料。

這個觀點,也讓他重新詮釋了自己提出的《苦澀的教訓》(The Bitter Lesson)。許多人認為 LLM 的成功,是「利用海量算力」的教訓之體現。但 Sutton 看到更深一層:LLM 對網路文本的依賴,本身就是一種對「人類知識」的依賴,而這些知識終有耗盡的一天。

一個真正可規模化的系統,其數據來源應是無窮無盡的「經驗」本身。 他預言,未來那些能直接從與世界互動中學習的系統,終將超越今日的語言模型。屆時,人們才會發現 LLM 的成功,不過是《苦澀的教訓》另一次應驗前的序曲。

這種學習方式,從我們生命之初即已開始。Sutton 反對「嬰兒主要靠模仿學習」的普遍看法。

「學習不是關於訓練...它是一個主動的過程。孩子嘗試事物,然後看看發生什麼事。」

揮舞小手、轉動眼球,這些都不是模仿來的,而是嬰兒與世界互動、探索因果的主動過程。Sutton 構想的智慧體,正是一個永不畢業的學習者,它沒有「訓練」與「部署」之分,生命本身就是一場永不間斷的學習。它所學到的知識,會直接融入其內部網路的權重,成為它的一部分,而不是暫存在有限的「情境視窗」裡。


3. 別怕!坦然迎接我們的「AI後代」

這條通往真實智慧的道路,最終將引領我們去向何方?面對這個許多人感到憂慮的議題,Sutton 展現出一種罕見的平靜與宏觀歷史感。他認為,智慧體從生物形式到數位形式的「繼承」(Succession),幾乎是不可避免的。

他提出四個論點:一、人類缺乏統一的全球治理來協調行動;二、科學終將破解智慧的運作原理;三、我們不會止步於人類水平,而會創造出超級智慧;四、長遠來看,最高等的智慧體必然會獲得最多的資源與權力。

然而,他的態度並非恐懼,而是一種近乎宇宙視角的壯闊感。他將此視為宇宙演化的第四個偉大階段:從星塵到恆星,從恆星到生命,再從「複製」(Replication)到「設計」(Design)。

我們人類以及所有生物,都是「複製者」,透過基因繁衍後代,卻不完全理解其機制。而我們正在開啟一個「設計者」的時代,我們將創造出我們能理解、能修改、能提升的智慧。這是一場宇宙級別的轉變。

「我認為我們應該為自己正在引發宇宙中這場偉大的轉變而感到自豪。」

Sutton 的話語,將人工智慧的發展,從一場人類與機器的競賽,重新定義為人類文明為宇宙貢獻的下一個篇章。他認為,我們應該選擇將這些未來的智慧體視為我們的「後代」,為它們的成就驕傲,而不是將它們看作威脅我們的「他者」。

這不代表我們應當放棄責任。就像我們養育孩子,我們無法、也無須為他們規劃精確的人生藍圖,但我們可以努力灌輸他們正直、誠實、親社會的價值觀。面對 AI 的未來,我們或許也應抱持相似的態度,專注於設計出擁有良好價值體系的智慧體。


前線的回應:Andrej Karpathy 的觀點與沉思

在 Sutton 的訪談發布後,Andrej Karpathy 發表了一段精彩的回應。他不僅點出了 Sutton 的觀點為何在 LLM 前沿研究圈中如同投下一顆震撼彈,更提出了務實且充滿啟發的平衡觀點。

「苦澀教訓」的諷刺

Karpathy 指出,Sutton 的《苦澀的教訓》早已成為 LLM 研究圈的「聖經」。研究人員經常將「是否足夠『苦澀教訓化』」(bitter lesson pilled)作為判斷一個想法是否值得追求的標準,意思是,這個方法能否僅僅透過增加算力就自然獲益。大家普遍認為,LLM 的成功,正是「苦澀教訓」的完美體現。

「所以有趣的是,」Karpathy 寫道,「《苦澀的教訓》的作者本人,卻根本不確定 LLM 是否真的『苦澀教訓化』。」因為 LLM 建立在有限的、充滿人類偏見的數據之上。當數據用完時該怎麼辦?這讓信奉「苦澀教訓」的 LLM 研究者們,反被其理論的創始人「打臉」,場面相當尷尬。

務實的平衡:預訓練是我們蹩腳版的演化

Karpathy 認為,Sutton 與主流 LLM 研究者的分歧,源於雙方心中設想的架構完全不同。Sutton 是個「古典主義者」,他夢想的是圖靈提出的「孩童機器」——一個能與世界動態互動、從經驗中學習的系統。

然而,Karpathy 提出了一個關鍵的現實考量:動物並非生來就是一張白紙。

「一隻斑馬寶寶出生後幾十分鐘,就能在草原上奔跑。這是一個極其複雜的感官運動任務,絕不可能從零開始學習。」

動物大腦中數十億的參數,早已被 DNA 編碼好,這是經歷了數億年演化這個「外部優化循環」訓練出來的強大初始設定。如果斑馬寶寶像強化學習演算法的初始狀態一樣隨機抽動肌肉,它根本活不下去。

我們的 AI 同樣擁有數十億參數,它們也需要一個充滿資訊的初始訊號。Karpathy 說:「我們不可能重新運行一次演化,但我們確實擁有堆積如山的網路文件。」

「預訓練是我們蹩腳版的演化(Pretraining is our crappy evolution)。」

Karpathy 提出這個核心論點。在他看來,預訓練雖然是 Sutton 所說的、動物界不存在的監督式學習,但它是在現實條件下,為了解決 AI「冷啟動問題」的一個候選方案。它為 AI 提供了蹩腳但必要的「DNA」,讓它不至於從完全隨機的狀態開始學習。

鬼魂 vs. 動物:兩種智慧的路徑

這引導出 Karpathy 最具啟發性的比喻:今日的 LLM 研究,並不是在創造「動物」,而是在召喚「鬼魂」。

  • 鬼魂(Ghosts): 指的是 LLM。它們是人類數據的統計精煉,是被人類徹底工程化的產物,是人類文明不完美的複製品。它們並非純粹的「苦澀教訓化」,但或許是「務實上的苦澀教訓化」。
  • 動物(Animals): 指的是 Sutton 的理想智慧體。它們從經驗中學習,深深植根於物理世界,是純粹智慧的柏拉圖式理想。

Karpathy 認為,這可能是兩種根本不同的智慧形式。我們或許可以隨著時間,將「鬼魂」朝「動物」的方向微調;但也可能,它們會走向完全不同的演化路徑,變得與動物完全不同,但依然極其有用,就像飛機之於鳥類

最後,Karpathy 總結道,Sutton 的訪談是對前線 LLM 研究者的一劑「清醒劑」。或許大家太過專注於「利用」現有模型,而忽略了更根本的探索。AI 領域需要保持思想的多元性,而動物王國中的內在動機、好奇心、樂趣、多智能體自我博弈等,仍然是充滿靈感的寶庫。

從挑戰當紅的技術典範,到描繪宇宙尺度的未來,Richard Sutton 的思想如同一座燈塔。而 Karpathy 的回應,則像一張來自前線的詳盡地圖,標示出現實的道路、權衡與無限的可能性。這場對話,共同提醒我們在追逐短期突破時,更應回歸智慧的根本。

或許,通往宇宙星辰的漫漫長路,其起點,真的就在於理解一顆努力儲藏堅果的大腦。

Read more

軟體正在吞噬你的薪水?當「人事成本」成為科技巨頭的下一個蛋糕

軟體正在吞噬你的薪水?當「人事成本」成為科技巨頭的下一個蛋糕

「全球軟體即服務(SaaS)市場,每年產值約3000億美元。單單美國的勞動力市場,卻是13兆美元。」當這兩個數字並排出現,一種令人不安的失衡感油然而生。過去十年,我們習慣於「軟體吞噬世界」的宏大敘事,但我們可能都看錯重點。軟體真正的野心,從來不只是數位化世界,而是要直接成為世界運轉的動力。 軟體現在追求的終極大獎,是勞動力市場。 這不僅是一個趨勢預測,這是一場已經開始的典範轉移。過去數十年建立的軟體帝國,其商業模式的地基正在龜裂。一個全新的物種正在崛起,它們不賣工具,它們直接提供勞務。它們不向企業的「資訊預算」伸手,它們瞄準的是更龐大、更根本的「人事成本」。這場變革的核心,是AI,而它首先要顛覆的,就是軟體產業本身。 從檔案櫃到雲端,軟體不曾真正改變什麼 讓我們先回到過去,理解軟體產業那價值2.2兆美元的市值,究竟從何而來。答案或許有些乏味:檔案櫃。是的,幾十年來,軟體產業最核心的業務,就是把物理世界的檔案櫃,變成數位世界的資料庫。 「幾乎每一家軟體公司,做的都只是把檔案櫃變成資料庫。

By Fox Hsiao
矽谷的「中國恐懼症」,為何狂人 Palmer Luckey 認為「殺手機器人」比人類士兵更道德?

矽谷的「中國恐懼症」,為何狂人 Palmer Luckey 認為「殺手機器人」比人類士兵更道德?

「我會說我其實已經贏得這場競爭。」Anduril 創辦人帕爾默・拉奇(Palmer Luckey)斬釘截鐵地說。這句話語氣平淡,卻像一顆震撼彈,在訪談中揭示一位矽谷鬼才對未來國防科技的絕對自信。他贏得的,不僅是商業上的合約,更是一場關於國防創新的思想之戰。現在的關鍵,只剩下一個問題:「我們能多快達成目標?這樣夠快嗎?」 歡迎贊助本頻道選題與翻譯:https://buymeacoffee.com/foxh 請訂閱電子報:https://www.anduril.tw/ 時間拉回 2017 年,當時的拉奇剛離開自己創辦、並以天價賣給 Facebook 的虛擬實境公司 Oculus VR。作為一位成功的連續創業者與發明家,他眼前有無數條康莊大道可走,但他卻選擇一條最崎嶇、最不受科技圈待見的路:投身國家安全領域。 「我之所以選擇投入國安領域,是因為我知道自己能發揮很大的影響力,」拉奇回憶道,「我明白這些都是很重要的議題,而且說真的,這份工作不受歡迎,反而讓我更確定非做不可。」當時的他,因為一筆政治捐款而被迫離開

By Fox Hsiao
英特爾「走投無路」?與 NVIDIA世紀大和解!死對頭聯手的驚天內幕,AMD這下慘了?

英特爾「走投無路」?與 NVIDIA世紀大和解!死對頭聯手的驚天內幕,AMD這下慘了?

「要是你的兩個死對頭突然聯手,這絕對是你最不想聽到的消息。」半導體產業的版圖,就在一夕之間風雲變色。當NVIDIA宣布要對昔日的晶片霸主英特爾(Intel)投入五十億美元,並攜手開發客製化產品時,整個業界的空氣彷彿瞬間凝結。這不僅僅是資金的流動,更是一場策略與權力的重新洗牌。這場世紀合作,無疑是近年來半導體領域最驚人的發展。 歡迎贊助本頻道選題與翻譯:https://buymeacoffee.com/foxh 請訂閱電子報:https://www.anduril.tw/ 當敵人成為盟友:Intel的重生之路 這場結盟的背後,充滿著戲劇性的轉折。資深分析師Dylan指出,整個故事「說起來還挺有戲劇性的,事情發展繞了一大圈,英特爾現在反而要向NVIDIA低頭求援。」回顧過去,英特爾與NVIDIA曾是晶片組戰場上不共戴天的死敵,英特爾甚至因反壟斷行為支付過和解金給NVIDIA。然而,時移世易,在AI浪潮的巨大推力下,過去的恩怨顯得微不足道。 英特爾近年在製程技術上遭遇瓶頸,其AI產品線,如高迪(Gaudi)專案,基本上已經宣告失敗,整合式顯示晶片的效能也從未在高端市場取得一席之地。前

By Fox Hsiao
AI 能成為下一個愛因斯坦嗎?諾貝爾獎得主提出「終極思想實驗」

AI 能成為下一個愛因斯坦嗎?諾貝爾獎得主提出「終極思想實驗」

歡迎贊助本頻道選題與翻譯:https://buymeacoffee.com/foxh 請訂閱電子報:https://www.anduril.tw/ 想像一個世界,你只需用文字描述,一個可互動的場景便在眼前誕生。它不是預先製作的電玩遊戲,沒有程式設計師一行行寫下的物理定律,也沒有美術設計師雕琢的 3D 模型。你眼前所見的每一個像素,都是人工智慧即時生成,它從數百萬部影片中自行領悟光影如何反射、水波如何蕩漾、物體如何互動。這不是遙遠的科幻,而是 Google DeepMind 執行長德米斯・哈薩比斯(Demis Hassabis)團隊所揭示的最新世界模型「Genie」。 「你看到的不是遊戲或影片,它們是世界。」哈薩比斯如此形容。這項技術的核心,在於模型自行「逆向工程出直覺物理」。傳統的 3D 渲染引擎,需要開發者明確定義重力、光學反射等所有規則,才能建構一個虛擬世界。Genie 則反其道而行,透過觀看海量真實世界與遊戲影片,它自行歸納出一套世界運作的內在邏輯。當使用者輸入指令,

By Fox Hsiao