NVIDIA 的「物理圖靈測試」，用 AI 生成影片訓練機器人？它們很快就能夠為你打掃煮飯

在 AI 領域，我們常聽說圖靈測試（Turing Test）是衡量機器能否展現與人類無異對話能力的里程碑。如今，大型語言模型（LLM）似乎已悄悄地通過了這個測試，但大家對其突破已習以為常，甚至會因為語音助理慢了幾秒或程式碼沒被完全除錯而抱怨連連。 NVIDIA AI 研究總監、身為廣受矚目人形機器人專家 Jim Fan 指出，當前業界對 LLM 的驚人進步視為「只是又一個平常的星期二」（just yet another Tuesday），這反映了我們對文字世界 AI 的標準已大幅提高。

然而，當我們將目光轉向現實世界，讓機器人進行物理操作時，會發現挑戰巨大得多。 Jim Fan 在演講中提出了一個引人深思的概念：「物理圖靈測試 (Physical Turing Test)」。這個測試的想像情境是：如果你回家後，看到雜亂的房間被整理得乾淨俐落，甚至還準備了一頓浪漫的燭光晚餐，而你無法分辨這是由真人還是機器人完成的，那代表這個機器人通過了物理圖靈測試。

但現實呢？看看那些連站起來都困難的人形機器人，或是嘗試為主人做早餐卻搞得一團亂的機器手臂（雖然辨識出牛奶值得給 A-，但湯匙餵食的確是 VIP 等級的體驗），我們離「物理圖靈測試」還差得很遠。

實體 AI 的最大瓶頸：資料飢渴症

為什麼物理圖靈測試如此困難？ Jim Fan 點出了核心問題：資料。LLM 研究人員抱怨網際網路資料快被用完，稱其為 AI 的「化石燃料」。但對機器人學家來說，我們甚至連這種「化石燃料」都沒有。真實世界的機器人資料——例如關節的精確控制訊號、連續的運動軌跡——是無法從網路上抓取的。這些資料必須透過昂貴且耗時的「遙控操作」（teleoperation）方式收集，也就是由真人穿戴感應裝置來遠端控制機器人，手把手地教它完成任務（例如從烤麵包機拿出麵包再淋上蜂蜜）。

這種方式極度沒效率，Jim Fan 將其比喻為燃燒「人類燃料」(human fuel)，比化石燃料還稀缺，每天每個機器人頂多運作 24 小時，而且真人會累，機器人更容易壞。這嚴重限制了機器人學習的多樣性和規模，形成了一個巨大的資料瓶頸。

模擬世界的核能：突破資料荒的救星

要突破這個瓶頸，唯一的出路是「模擬 (Simulation)」，找到機器人學的「核能」。Jim Fan 介紹了NVIDIA為此推進的三階段模擬策略：

模擬 1.0：數位分身 (Digital Twin)
- 概念：在虛擬世界中建立機器人和環境的一對一精確拷貝。
- 方法：利用高效能的向量化物理引擎，可以在單一 GPU 上模擬上萬個環境，速度比現實世界快上萬倍。結合「領域隨機化 (Domain Randomization)」技術，在模擬時隨機改變重力、摩擦力、物體重量等參數，迫使 AI 在各種條件下都能執行任務。
- 優勢：極快的訓練速度。訓練出的模型可以直接零次轉移 (zero-shot) 到真實世界機器人上，無需微調。例如，訓練機械手在模擬中轉筆，訓練機器狗在球上平衡，訓練人形機器人行走（10 年訓練量在 2 小時模擬完成）。一個僅有 150 萬參數的神經網路就足以捕捉人形機器人全身平衡和敏捷動作的複雜控制。
- 限制：數位分身需要人工精確建模，建立複雜環境耗時費力，模擬的多樣性仍然受限於人工設定的範圍。
模擬 2.0：數位表親 (Digital Cousin)
- 概念：開始在模擬中引入生成式 AI。雖然不像數位分身那樣是精確拷貝，但能產生足夠多樣的環境和場景，「像數位分身的表親」。
- 方法：利用 3D 生成模型生成場景中的各種物品（如家具），使用擴散模型（Diffusion Model）生成紋理貼圖，利用 LLM 根據文字提示生成場景佈局的 XML 檔案。 NVIDIA 的 Robocasa 框架就是例子，可以生成大規模、包含日常任務的模擬場景，除了機器人本身，其他幾乎都是生成的。
- 優勢：顯著增加了環境和任務的多樣性。可以在模擬中進行遙控操作，然後將軌跡變異、擴展到更多生成的環境中，實現 N (環境數) * N (動作變異數) 的資料乘法爆炸。雖然畫面真實度可能不及真實世界，但「足夠接近」。
- 限制：相較於 1.0，運行速度可能較慢，仍部分依賴傳統渲染管線。
模擬 3.0 (世界模型 / 擴散模型)：數位遊牧者 (Digital Nomad)
- 概念：直接利用生成式模型（特別是影片擴散模型）來模擬物理世界的互動，擺脫對傳統物理引擎的依賴。
- 方法：以大量真實世界影片（數百萬段網路影片）訓練影片擴散模型，使其學會模擬各種複雜的物理現象（如流體、軟體變形）。 NVIDIA 的研究表明，只需用真實機器人實驗室收集的少量領域特定資料微調通用的影片生成模型，就能讓模型學會模擬機器人的精確互動。
- 優勢：極致的多樣性。影片擴散模型能模擬任何它在訓練資料中「看過」或「想像」的互動，不受傳統物理引擎的限制（例如模擬機器人彈烏克麗麗，即便硬體不支援，模型也能「畫」出來）。這就像讓機器人漫遊在影片模型的「夢境空間」（dream space）——一個壓縮了海量網路影片的多元宇宙，實現「萬物、處處、一時」(Everything Everywhere All at Once) 的互動學習。僅僅一年時間，影片生成模型在物理真實度上（例如變形麵條）的進步，就超越了傳統圖學 30 年的發展。
- 速度：目前運行可能較慢，但具備隨算力呈指數級成長的巨大潛力。

具身縮放定律與 GR00T N1

Jim Fan 總結，傳統模擬（1.0）的速度快但受限於多樣性，而生成式模擬（2.0/3.0）雖可能起步慢但能隨算力呈指數級擴展其多樣性。這兩種模擬方式的結合，將是為下一代機器人系統提供龐大訓練資料的「核能」。這也意味著，對 AI 算力的需求只會越來越大，那些認為算力問題會迎刃而解的人需要再三思考。

藉由這些模擬技術產生的海量資料，NVIDIA 開發了「視覺語言行動模型 (Vision Language Action Model, VLA)」，能接收圖像和語言指令，並直接輸出機器人的運動控制訊號。今年 GTC 大會上黃仁勳發表的 GR00T N1 模型就是一個實例，它能在真實世界執行抓取香檳、工廠零件甚至多機器人協調等任務。 GR00T N1 已開源，NVIDIA 也計劃將未來的模型開源，以普及「實體 AI」。

物理 API：通往新世界的入口

實體 AI 的最終目標，是實現「物理 API (Physical API)」。想像一下，就像 LLM API 讓軟體能夠操作數位世界的位元 (bits) 一樣，物理 API 將賦予軟體操作現實世界的原子 (atoms) 的能力。透過這個 API，你可以讓軟體直接控制物理致動器，改變物理世界的狀態。

這將催生全新的經濟模式和應用場景：

物理提示 (Physical Prompting)：不再只用文字，而是結合視覺和語言等方式更直觀地教導和指示機器人。
物理應用商店和技能經濟 (Physical App Store & Skill Economy)：米其林大廚不必親自下廚，他可以「教導」機器人他的獨家烹飪技巧，並將這個技能作為服務販售，讓任何擁有機器人的家庭都能享受到米其林級的晚餐。

Jim Fan 引用黃仁勳的話再次強調，未來「每一個會移動的東西都將是自主的」。總有一天，你回家會看到乾淨的沙發和燭光晚餐，伴侶對你微笑而不是責備你沒做家事——而那一天，我們通過物理圖靈測試的時刻，很可能就像 LLM 通過圖靈測試一樣，在世人眼中「只是又一個星期二」。這正是驅動 Jim Fan 和團隊每天努力的動力。

Saronic 的無人船六月救人、七月炸港，四天後宣布蓋 32 億美元造船廠

2026 年 6 月 9 日凌晨，一架 AH-64 阿帕契攻擊直升機墜落在阿曼外海，把兩名飛行員從水裡撈起來的，是一艘 7.3 公尺長、船上沒有人的無人水面載具（USV）。美軍第五艦隊第 59 特遣隊把這艘船開過去，這是美軍第一次公開確認在實戰環境用無人船救回機組員。一個月又三天之後，7 月 12 日晚間，三艘外型一模一樣的船從波斯灣出發，一路開進伊朗班達阿巴斯（Bandar Abbas）海軍基地，撞上潛艦與艦艇維修設施引爆。美軍中央司令部隔天證實，這是美軍第一次在實戰中使用海上攻擊無人艇。同一款船，同一條產線，任務決定它今天是救生艇還是彈藥。這款船叫 Corsair，做的公司叫 Saronic Technologies，2022 年才在德州奧斯汀成立。而就在四天前的 7 月 16 日，這家成立四年的公司宣布要在德州布朗斯維爾（

Archer、Anduril 與 Thunder：一套電動飛行技術，如何同時吃下奧運與戰場

2026 年 7 月 20 日，一家叫 Archer 的公司同時活在兩個世界。在其中一個世界，它是 2028 洛杉磯奧運的獨家空中計程車供應商，要讓乘客從塞車地獄裡直接飛過去；在另一個世界，它跟國防科技公司 Anduril 一起，亮出一架要陪著阿帕契（Apache）攻擊直升機上戰場的自主攻擊旋翼機 Thunder。這架 Thunder 跟 Anduril 共同開發，用的是一個全新設計的自主垂直起降平台，而同一個平台還有一個商用版，叫 Halo，一個做國防、一個做民用。Archer 本來最出名的是載客用的空中計程車 Midnight，如今卻同時把觸角伸進戰場。一家幫奧運載客的新創，怎麼會突然做起攻擊無人機，這條線一路追下去，會牽出 Anduril 一個很少被講清楚的成長祕密。 Archer 本來是一家賣「飛天計程車」的公司先把 Archer 是誰講清楚，

前 CIA 局長在《外交事務》說明，台灣需要讀懂的事：主權國防戰略生態系

裴卓斯（David Petraeus）指揮過駐伊拉克與阿富汗聯軍、當過美國中央司令部司令，退役後接掌 CIA。7 月初，他和在烏克蘭營運 AI 非營利組織的 Clara Kaluderovic 在《外交事務》（Foreign Affairs）合寫了一篇文章，標題就點名台灣，〈台灣一直沒學到的烏克蘭課〉，副標是「問題不在無人機，在無人機周圍的一切」。文章的出發點，是擔心各國軍方把烏克蘭戰場讀成一份採購目錄。無人機便宜又有效，那就編預算買無人機，看起來這樣學最快，但兩位作者認為這樣只學到皮毛，烏克蘭真正的本事，是圍繞這些便宜武器搭起來的整套生態系，而他們判斷最可能錯過這一課的地方，正是同樣面對強鄰入侵威脅的台灣。烏克蘭真正的武器是生態系這套生態系怎麼運作，黑海看得最清楚，2022 年 2 月開戰時，烏克蘭為了不讓旗艦落入俄軍手中，自己把它鑿沉，等於一開戰就沒有海軍。兩年之內，這個沒有海軍的國家把俄軍黑海艦隊逐出塞凡堡母港，摧毀、重創超過三分之一的黑海艦艇，剩下的船只能躲到離烏克蘭最遠的港口，做法是空中無人機負責找船、

68 歲拒絕交棒、全押 AI：孫正義要讓 SoftBank 衝上 1,000 兆日圓

六月二十四日，孫正義（Masayoshi Son）站上 SoftBank 第四十六屆股東會的講台，沒有先講財報數字，而是先講了一隻鵝。十六年前，這隻鵝在市場眼中的價值是零。這場股東會的氣氛，跟一個多月前那場財報說明會不太一樣。五月那場是財務長後藤芳光主講，孫正義因為膝蓋還在復原沒上台。這次他自己來了，講了快一個半小時，從一隻會下金蛋的鵝講到他父親臨終前的最後一句話，中間夾著一個聽起來像天文數字的目標，一千兆日圓。十六年前，那隻鵝值零元孫正義用的是大家從小就聽過的那個寓言，會下金蛋的鵝。他把一顆金蛋換算成一兆日圓，然後帶大家回到十六年前。那是 2010 年，SoftBank 創立三十週年，他在股東會上發表「新三十年願景」。當時集團的持股權益價值是五兆日圓，等於五顆金蛋，扣掉兩兆日圓的負債，股東淨值（NAV）剛好三兆日圓，也就是三顆金蛋。問題出在另一個數字上，當年 SoftBank 的市值也是三兆日圓，跟淨值一模一樣。這代表什麼？孫正義的帳是這樣算的，淨值已經把帳上看得到的三顆蛋算進去了，市值卻只值三顆蛋的錢，那麼會下蛋的這隻鵝本身，

Read more

Saronic 的無人船六月救人、七月炸港，四天後宣布蓋 32 億美元造船廠

Archer、Anduril 與 Thunder：一套電動飛行技術，如何同時吃下奧運與戰場

前 CIA 局長在《外交事務》說明，台灣需要讀懂的事：主權國防戰略生態系

68 歲拒絕交棒、全押 AI：孫正義要讓 SoftBank 衝上 1,000 兆日圓