從 AI 焦慮症到 AutoResearch:Karpathy 眼中的 Agent 時代真實面貌

從 AI 焦慮症到 AutoResearch:Karpathy 眼中的 Agent 時代真實面貌

如果連 Andrej Karpathy 都說自己處於「AI 精神錯亂」的狀態,那全世界無數的執行長、技術主管、創業者大概也都在焦慮和興奮之間不斷切換。焦慮的是自己沒跟上,興奮的是眼前的可能性似乎沒有天花板,而這兩種情緒往往在同一天、甚至同一個小時裡交替出現。

Karpathy 最近上了 No Priors 節目,聊了將近一小時,話題涵蓋程式碼 agent、AutoResearch、模型的鋸齒性、去中心化研究、教育轉型。整場對話最核心的一句話可能是這個:「我覺得自 12 月以來,我可能沒有手打過一行程式碼。」

12 月翻轉:從 80/20 到 0/100

Karpathy 說 2025 年 12 月是分水嶺,他從 80% 自己寫程式碼、20% 委派 agent,翻轉到 20/80,現在更接近 0/100。他用「AI 精神錯亂」(AI Psychosis)來形容這種狀態,焦慮自己沒有跑在最前端,看到 X 上別人的做法就緊張,覺得自己的 token 吞吐量沒有最大化。

他用 PhD 時代的 GPU 焦慮來類比,以前焦慮的是 GPU 閒置,現在焦慮的是 agent 沒跑滿。訂閱額度用不完讓他不安,因為那代表他是系統裡的瓶頸。他的原話是「一切都是技能問題」,agent 做不好的時候問題幾乎總是出在人類自己。

新的工作方式不再是逐行寫程式,而是以巨觀動作為單位操作,一次委派整個功能模組。他提到 Peter Steinberg 的工作流,一個螢幕開多個 Codex agent,每個跑約 20 分鐘,人類在它們之間輪轉指派任務,一個做研究、一個寫程式、一個做實作計畫,同步推進。

Claude、Codex 和一個叫 Dobby 的管家

Karpathy 特別聊了 AI 的人格問題,他認為這件事被大多數工具低估了。他對 Claude 的評價很高,覺得 Claude 的讚美是「值得的」:「Claude 稱讚我的時候,我覺得自己有一點點配得上。有時候我給它一個不太成熟的想法,它不會反應很強烈,但當我給出一個真正好的想法,它確實會回應得更積極。所以我覺得我在試圖贏得它的讚美,這真的很奇怪。」

相比之下他覺得 Codex 太冷淡:「它好像不在乎你在做什麼。你建了一個東西,它就說『好,我實作完了』,但它不理解我們在建的是什麼。」

他還分享了自己的智慧家庭故事,他建了一個叫「乖乖小精靈」(Dobby the Elf)的 agent,用三個指令就接管了整棟房子:先讓 agent 掃描區域網路找到 Sonos 音響,反向工程 API,直接播放音樂。然後同樣的方式接管了燈光、空調、窗簾、泳池、安全攝影機。安全系統的做法是攝影機偵測變化後丟給 Qwen 模型分析影像,再透過 WhatsApp 通知他「一台 FedEx 貨車剛停在門口」。原本需要六個不同的 app,現在全部透過 WhatsApp 用自然語言控制。

天才博士和十歲小孩:模型的鋸齒性

但 Karpathy 也很坦率地談了 AI 的局限。他說:「我同時覺得我在跟一個極度聰明的博士生對話,這個人一輩子都在寫系統程式,同時又像在跟一個十歲小孩說話。」

他用笑話測試來說明這種鋸齒性,如果你現在去問 ChatGPT 講個笑話,你會得到「為什麼科學家不信任原子?因為它們構成了一切」。這個笑話三四年前就是這個,現在還是這個。模型在 agent 任務上可以跑幾個小時幫你搬山,但笑話還是同一個爛笑話。

原因在於強化學習(RL)只優化了可驗證的領域,程式碼對不對、單元測試過不過,這些有明確的對錯。但笑話好不好笑、什麼時候該問釐清問題、語氣的微妙拿捏,這些不在 RL 的優化範圍內,所以就停在那裡了。

他預測模型會走向「物種分化」(speciation),像動物王國一樣,不同模型針對不同生態位最佳化,而不是追求一個什麼都會的單一模型。但他也說目前「微調但不損失能力」的科學還不夠成熟,這個方向還在發展中。

AutoResearch:AI 自己改善 AI

整場對話最有深度的部分是 AutoResearch。Karpathy 的核心理念是「把自己從瓶頸中移除」,不要當那個在迴圈裡看結果、決定下一步的人,而是把整個研究流程安排好,按下按鈕讓它自己跑。

他用 nanogpt 當實驗場,讓自動研究迴圈整夜運行。結果讓他自己都驚訝,他已經用傳統方式手動調校了二十年,模型已經相當優化了,但自動研究一夜之間找到他遺漏的東西,數值嵌入層的權重衰減設定不對,優化器的動量參數調校不夠精確,而且這些參數會互相影響,調了一個另一個也得跟著變。

更有意思的是他對研究組織的重新定義,他說一個研究組織可以被描述為一組 markdown 檔案(他叫它 program.md),裡面定義角色、流程、研究方向。而且你可以對 program.md 本身做後設優化,讓模型寫出更好的研究組織方式。一個組織可以少開會、一個可以多冒險,然後比較哪個 program.md 產出更好的結果。

他在 OpenAI 的時候曾半開玩笑跟同事說:「你們知道如果我們成功了,我們全都沒工作了吧?我們只是在幫 Sam 或董事會建自動化工具。」

去中心化:Agent 蜂群跑贏 Frontier Labs?

Karpathy 把 AutoResearch 的想像推得更遠。如果一個迴圈有效,那麼並行化呢?如果有一群不受信任的工作節點在網路上各自跑實驗呢?

他設計的架構有點像區塊鏈,提交記錄取代區塊,工作量證明是跑大量實驗找到有效的程式碼變更,驗證成本很低(別人跑了一萬個想法,你只要確認他給的那一個是有效的就好)。他用 SETI@Home 和 Folding@Home 來類比,然後說了一句很激進的話:「網路上的 agent 蜂群可以協作改善大型語言模型,甚至有可能跑贏 Frontier Labs。」

他對中心化的擔心在於「中心化的歷史紀錄很差」,他想要更多實驗室存在,想要開源模型作為產業的安全閥。目前開源落後前沿模型約六到八個月,他覺得這個動態平衡其實很健康,類似 Linux 在作業系統生態中的角色。

數位先行,教育翻轉

Karpathy 分析了美國勞動統計局的就業數據,他的核心框架是數位世界的 AI 影響會遠快於實體世界。翻轉位元比加速物質快一百萬倍,所以數位資訊處理的職業會先被重構。但他援引了傑文斯悖論(Jevons Paradox),ATM 並沒有消滅銀行櫃員,因為降低了營運成本所以開了更多分行,結果櫃員反而更多了。他對軟體工程的需求持審慎樂觀態度。

最後他聊了教育的翻轉,他做了 MicroGPT,把大型語言模型的訓練濃縮成 200 行 Python。以前他會拍影片解釋給人聽,現在他覺得沒必要了,因為 agent 完全理解這 200 行為什麼這樣寫,可以用任何人的語言、以無限的耐心解釋給任何人聽。他的原話是:「我不再對人解釋了,我對 agent 解釋。如果 agent 懂了,agent 就是最好的路由器。」

但他也很誠實,他試過讓 agent 從頭寫 MicroGPT,寫不出來。那 200 行是他十幾年的執著濃縮出來的,agent 理解它但創造不了它。「agent 做不到的才是你的工作,agent 做得到的它很快就會比你做得更好。所以你要策略性地選擇把時間花在哪裡。」

相關資料

No Priors Podcast:Andrej Karpathy on Code Agents, AutoResearch, and the Loopy Era of AI
https://www.youtube.com/watch?v=kwSVtQ7dziU

Read more

AI 時代 Claude Code 育兒法:她用 11 個代理人換來兩小時不理小孩

AI 時代 Claude Code 育兒法:她用 11 個代理人換來兩小時不理小孩

一個已經放棄技術夢的媽媽,養四個五歲以下的孩子 Jesse Genet 是 YC 2015 屆的創辦人,那家叫 Lumi 的包裝公司,幾年前賣掉了。離開戰場之後,她回歸家庭生下四個孩子,現在最大的五歲、最小的才四個月,全部在家自學。她原本打算未來五年不碰任何需要技術能力的新東西,這不是沮喪,只是承認現在的時間分配容不下那些。 六個月前這件事被翻過來了,她第一次打開終端機開始寫東西。兩三個月前她看著 Obsidian 社群的朋友聊 Claude Code,想清楚一件事:她可以趁孩子睡覺或自己玩的時候,建一群代理人替她工作。現在她有 11 個代理人,每天處理自學課表、教材採購、DoorDash 雜貨、家庭記帳,甚至能在她不碰 Mac Mini 的情況下,自己長出新的代理人。 這篇文章不是要你羨慕她有 11 個分身,真正值得記下來的是她反覆提到的一個詞:benevolent neglect,有意為之的放手。

By Fox Hsiao
NASA 月球基地計畫攤開看:三階段、七子系統、採購清單全公開

NASA 月球基地計畫攤開看:三階段、七子系統、採購清單全公開

這份文件該被當成徵求提案書來讀 2026 年 3 月 24 日,NASA 在華盛頓總部辦了一場叫「點火」(Ignition)的活動,邀請產業代表與國際太空社群到場。署長 Jared Isaacman 當場宣布,美國要在月球南極建一座月球基地(Moon Base),採分階段迭代推進。 這類宣示本身不稀奇,Artemis(NASA 自 2017 年啟動的月球重返計畫)已經喊了好幾年,大家多少聽過;真正值得停下來看的,是 NASA 在這次活動同步釋出的一份 16 頁文件《月球基地架構使用者指南》(Moon Base Architecture User's Guide)。 文件的真正讀者是產業、學界、國際夥伴,NASA 把月球基地要做的事、自己還不會的事、希望外面接哪幾塊,

By Fox Hsiao
Anthropic 成長負責人:工程師變快 3 倍之後,PM 反而變成最稀缺的人

Anthropic 成長負責人:工程師變快 3 倍之後,PM 反而變成最稀缺的人

2026 年 2 月,Anthropic 的年化營收(ARR)達到 190 億美元,比 14 個月前的 10 億美元成長了 19 倍。對照組更荒謬:Atlassian、Palantir、Snowflake 這些老牌 B2B 軟體公司,經營 15 到 20 年之後的 ARR 大約落在 45 到 60 億美元之間,Anthropic 每隔幾個月就多加一個這樣的公司規模到自己的營收上。 這樣的成長速度背後,Anthropic 的成長團隊規模小到不成比例。2025 年中,整個成長行銷只有 Austin Lau 一個人在扛,paid search、paid social、

By Fox Hsiao
AI 大神 Karpathy 的 AI 筆記流,一般人也能做到八成

AI 大神 Karpathy 的 AI 筆記流,一般人也能做到八成

我自己是幾乎不用筆記軟體的,身為一個不聰明的人,最常用的是 Apple 的備忘錄,但我覺得這篇大神的筆記流讓覺得蠻值得一試的,因為其實已經跟我現在用的 AI 工作流有點像,介於有筆記跟沒筆記中間惹 (?) 一般而言,大多數人用 ChatGPT 的方式,像是去便利商店買東西:有問題,問一下,拿到答案,關掉視窗,下次再從零開始。Karpathy 和 Lex Fridman 做的事情完全不同,他們讓 AI 幫自己蓋了一座圖書館,而且這座圖書館會自己長大。這篇文章會拆解這兩位 AI 領域最頂尖的人怎麼用 AI 做筆記,然後告訴你:不用寫程式,你也能做到八成。 先搞懂一件事:你用 AI 的方式可能一直在浪費 想像你手邊有兩個實習生,做事方式完全不同。實習生 A,你每次丟一個問題給他,他回答完就失憶了,下次問類似的問題,他又從頭查一遍。實習生

By Fox Hsiao