News

Gemini 成功破關寶可夢，但這代表勝過 Claude 了嗎？

Google 執行長 Sundar Pichai 於 2025 年 5 月 3 日在 X 上分享的消息，他們的 Gemini 2.5 Pro 模型成功地「破關」經典遊戲《寶可夢藍版》(Pokémon Blue)。畫面顯示，這項挑戰大約花了 106,505 個行動步數達成，最終擊敗遊戲裡的聯盟冠軍。這項成就，連同先前 Google 方面宣稱 Gemini 在寶可夢遊戲中比競爭對手 Claude 更快達到遊戲進度，都引發人們對 LLM 在這類任務上能力的討論。

Anthropic 在介紹其 Claude 3.7 Sonnet 模型時，曾闡述他們為何選擇寶可夢作為一個測試項目。他們認為，就像人類處理問題時會根據難易度投入不同的思考精力一樣，新的模型也具備了「延伸思考模式」和改進的「代理能力」，可以在面對複雜或開放式的任務時，投入更多資源、進行更深入的思考和規劃。

寶可夢這類遊戲，並非簡單的問答，而是一個需要 AI 作為一個「代理人」去感知環境、理解狀態、規劃行動，並在大量的時間步驟中持續維持目標的任務。它要求 AI 不斷地接收遊戲畫面（視覺輸入）、理解遊戲規則和目標、規劃下一步行動（例如移動、對話、戰鬥），並將思考結果轉換成遊戲操作（按下按鍵）。

Anthropic 認為，這種需要長期專注、環境互動和複雜決策的特性，恰好能測試模型在應對真實世界中需要持續互動和達成開放性目標任務時的潛力。早期的 LLM 可能連遊戲開始的房間都走不出去，而能力的提升則能讓模型嘗試更多策略，並在過程中進行自我改進。因此，寶可夢被視為一個能展現 AI 在長時間、多步驟任務中「維持專注並完成目標」能力的有趣且具有代表性的測試。

從公開的數據來看，Gemini 這次不僅完成遊戲，其總行動步數 (約 10.6萬) 也比先前 Claude 達到其最佳紀錄時 (約 21.5萬) 要少。如果單純比較這些數字，很容易會讓人覺得 Gemini 在玩寶可夢這件事上效率更高、能力更強。

然而，多位參與或關注這些實驗的專家，包括 GeminiPlaysPokemon 專案的負責人 Joel Z 本人，都明確指出，這兩場由 AI 執行的寶可夢遊戲，並非在完全相同的條件下進行的標準化基準測試。這就像讓兩位學生考試，但給予的輔助工具與環境不同，即使最後的成績有差異，也很難直接斷定是誰的能力更強。

關鍵差異在於支撐 Gemini 和 Claude 玩遊戲的「代理程式框架」（Agent Harness）。這套框架是連接 LLM 模型與遊戲環境的橋樑，負責處理輸入資訊（遊戲畫面、數據）、提供輔助工具，並將模型的決策轉換為遊戲操作。

雖然雙方的框架都提供基本功能，例如接收遊戲畫面、存取遊戲數據、轉化按鍵指令等，但具體實作細節卻有顯著不同：

資訊呈現方式： Gemini 的框架似乎提供更為友善的輸入資訊，例如在遊戲畫面上疊加詳細的文字標籤，甚至提供文字版的「小地圖」。這對於不擅長直接解析像素化遊戲畫面的 LLM 來說，提供巨大的幫助。
輔助工具： 雖然兩者都有路徑規劃工具，但其自動化程度和實作方式可能不同。對於導航能力普遍較弱的 LLM 而言，一個強大的導航輔助工具能大幅提升其遊戲進度。
開發階段與人為干預： GeminiPlaysPokemon 專案在進行直播時，仍處於活躍的開發和實驗階段。專案負責人 Joel Z 會在實驗過程中對框架進行調整，甚至在必要時給予模型一些關於遊戲機制而非攻略本身的提示。Claude 的專案在公開展示前也經歷優化過程，但 Gemini 的實驗更多是在「直播」整個開發與測試過程，這也影響實驗的可比性。

Joel Z 本人就謙虛地表示，他認為 Gemini 能走得更遠，很大程度上是得益於「更好的框架」，而非模型本身在「寶可夢能力」上大幅領先。他強調這些實驗不應被視為直接比較兩家模型優劣的基準。

這些實驗同時也顯示出目前 LLM 在處理這類任務時的一些普遍限制。即使有輔助框架，模型仍會花費大量的行動步數在無效的探索、重複的錯誤或困惑的思考上。有專家認為，如果框架提供了過多針對遊戲的「鷹架」（scaffolding），那測試的可能更多是框架設計的優劣，而非模型本身的遊戲理解能力或通用代理能力。理想的 LLM 遊戲基準測試，或許應在盡可能減少針對性輔助或確保輔助條件完全一致的前提下進行。

所以，Gemini 成功破關寶可夢《藍版》，無疑是 AI 代理程式在遊戲任務上達成的一個里程碑式成就。這證明結合強大的 LLM 模型與精心設計的輔助框架，AI 確實能在複雜且需要長期互動的環境中取得顯著進展。然而，我們必須了解由於與 Claude 的實驗在條件上存在諸多差異，單憑這次的成就和帳面數據，並不足以斷言目前 Gemini 在「玩寶可夢的能力」上絕對優於 Claude。

未來的我們在看各種 AI 遊戲挑戰，如果希望作為評估 LLM 能力的有效基準，將需要更加嚴謹的設計，確保各個模型選手在盡可能公平一致的環境與條件下進行測試，我們才能更清晰地看到不同模型本身在理解、規劃和執行複雜任務上的真正實力。

Saronic 的無人船六月救人、七月炸港，四天後宣布蓋 32 億美元造船廠

2026 年 6 月 9 日凌晨，一架 AH-64 阿帕契攻擊直升機墜落在阿曼外海，把兩名飛行員從水裡撈起來的，是一艘 7.3 公尺長、船上沒有人的無人水面載具（USV）。美軍第五艦隊第 59 特遣隊把這艘船開過去，這是美軍第一次公開確認在實戰環境用無人船救回機組員。一個月又三天之後，7 月 12 日晚間，三艘外型一模一樣的船從波斯灣出發，一路開進伊朗班達阿巴斯（Bandar Abbas）海軍基地，撞上潛艦與艦艇維修設施引爆。美軍中央司令部隔天證實，這是美軍第一次在實戰中使用海上攻擊無人艇。同一款船，同一條產線，任務決定它今天是救生艇還是彈藥。這款船叫 Corsair，做的公司叫 Saronic Technologies，2022 年才在德州奧斯汀成立。而就在四天前的 7 月 16 日，這家成立四年的公司宣布要在德州布朗斯維爾（

Archer、Anduril 與 Thunder：一套電動飛行技術，如何同時吃下奧運與戰場

2026 年 7 月 20 日，一家叫 Archer 的公司同時活在兩個世界。在其中一個世界，它是 2028 洛杉磯奧運的獨家空中計程車供應商，要讓乘客從塞車地獄裡直接飛過去；在另一個世界，它跟國防科技公司 Anduril 一起，亮出一架要陪著阿帕契（Apache）攻擊直升機上戰場的自主攻擊旋翼機 Thunder。這架 Thunder 跟 Anduril 共同開發，用的是一個全新設計的自主垂直起降平台，而同一個平台還有一個商用版，叫 Halo，一個做國防、一個做民用。Archer 本來最出名的是載客用的空中計程車 Midnight，如今卻同時把觸角伸進戰場。一家幫奧運載客的新創，怎麼會突然做起攻擊無人機，這條線一路追下去，會牽出 Anduril 一個很少被講清楚的成長祕密。 Archer 本來是一家賣「飛天計程車」的公司先把 Archer 是誰講清楚，

前 CIA 局長在《外交事務》說明，台灣需要讀懂的事：主權國防戰略生態系

裴卓斯（David Petraeus）指揮過駐伊拉克與阿富汗聯軍、當過美國中央司令部司令，退役後接掌 CIA。7 月初，他和在烏克蘭營運 AI 非營利組織的 Clara Kaluderovic 在《外交事務》（Foreign Affairs）合寫了一篇文章，標題就點名台灣，〈台灣一直沒學到的烏克蘭課〉，副標是「問題不在無人機，在無人機周圍的一切」。文章的出發點，是擔心各國軍方把烏克蘭戰場讀成一份採購目錄。無人機便宜又有效，那就編預算買無人機，看起來這樣學最快，但兩位作者認為這樣只學到皮毛，烏克蘭真正的本事，是圍繞這些便宜武器搭起來的整套生態系，而他們判斷最可能錯過這一課的地方，正是同樣面對強鄰入侵威脅的台灣。烏克蘭真正的武器是生態系這套生態系怎麼運作，黑海看得最清楚，2022 年 2 月開戰時，烏克蘭為了不讓旗艦落入俄軍手中，自己把它鑿沉，等於一開戰就沒有海軍。兩年之內，這個沒有海軍的國家把俄軍黑海艦隊逐出塞凡堡母港，摧毀、重創超過三分之一的黑海艦艇，剩下的船只能躲到離烏克蘭最遠的港口，做法是空中無人機負責找船、

68 歲拒絕交棒、全押 AI：孫正義要讓 SoftBank 衝上 1,000 兆日圓

六月二十四日，孫正義（Masayoshi Son）站上 SoftBank 第四十六屆股東會的講台，沒有先講財報數字，而是先講了一隻鵝。十六年前，這隻鵝在市場眼中的價值是零。這場股東會的氣氛，跟一個多月前那場財報說明會不太一樣。五月那場是財務長後藤芳光主講，孫正義因為膝蓋還在復原沒上台。這次他自己來了，講了快一個半小時，從一隻會下金蛋的鵝講到他父親臨終前的最後一句話，中間夾著一個聽起來像天文數字的目標，一千兆日圓。十六年前，那隻鵝值零元孫正義用的是大家從小就聽過的那個寓言，會下金蛋的鵝。他把一顆金蛋換算成一兆日圓，然後帶大家回到十六年前。那是 2010 年，SoftBank 創立三十週年，他在股東會上發表「新三十年願景」。當時集團的持股權益價值是五兆日圓，等於五顆金蛋，扣掉兩兆日圓的負債，股東淨值（NAV）剛好三兆日圓，也就是三顆金蛋。問題出在另一個數字上，當年 SoftBank 的市值也是三兆日圓，跟淨值一模一樣。這代表什麼？孫正義的帳是這樣算的，淨值已經把帳上看得到的三顆蛋算進去了，市值卻只值三顆蛋的錢，那麼會下蛋的這隻鵝本身，

Read more

Saronic 的無人船六月救人、七月炸港，四天後宣布蓋 32 億美元造船廠

Archer、Anduril 與 Thunder：一套電動飛行技術，如何同時吃下奧運與戰場

前 CIA 局長在《外交事務》說明，台灣需要讀懂的事：主權國防戰略生態系

68 歲拒絕交棒、全押 AI：孫正義要讓 SoftBank 衝上 1,000 兆日圓