Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Google 執行長 Sundar Pichai 於 2025 年 5 月 3 日在 X 上分享的消息,他們的 Gemini 2.5 Pro 模型成功地「破關」經典遊戲《寶可夢 藍版》(Pokémon Blue)。畫面顯示,這項挑戰大約花了 106,505 個行動步數達成,最終擊敗遊戲裡的聯盟冠軍。這項成就,連同先前 Google 方面宣稱 Gemini 在寶可夢遊戲中比競爭對手 Claude 更快達到遊戲進度,都引發人們對 LLM 在這類任務上能力的討論。

Anthropic 在介紹其 Claude 3.7 Sonnet 模型時,曾闡述他們為何選擇寶可夢作為一個測試項目。他們認為,就像人類處理問題時會根據難易度投入不同的思考精力一樣,新的模型也具備了「延伸思考模式」和改進的「代理能力」,可以在面對複雜或開放式的任務時,投入更多資源、進行更深入的思考和規劃。

寶可夢這類遊戲,並非簡單的問答,而是一個需要 AI 作為一個「代理人」去感知環境、理解狀態、規劃行動,並在大量的時間步驟中持續維持目標的任務。它要求 AI 不斷地接收遊戲畫面(視覺輸入)、理解遊戲規則和目標、規劃下一步行動(例如移動、對話、戰鬥),並將思考結果轉換成遊戲操作(按下按鍵)。

Anthropic 認為,這種需要長期專注、環境互動和複雜決策的特性,恰好能測試模型在應對真實世界中需要持續互動和達成開放性目標任務時的潛力。早期的 LLM 可能連遊戲開始的房間都走不出去,而能力的提升則能讓模型嘗試更多策略,並在過程中進行自我改進。因此,寶可夢被視為一個能展現 AI 在長時間、多步驟任務中「維持專注並完成目標」能力的有趣且具有代表性的測試。

從公開的數據來看,Gemini 這次不僅完成遊戲,其總行動步數 (約 10.6萬) 也比先前 Claude 達到其最佳紀錄時 (約 21.5萬) 要少。如果單純比較這些數字,很容易會讓人覺得 Gemini 在玩寶可夢這件事上效率更高、能力更強。

然而,多位參與或關注這些實驗的專家,包括 GeminiPlaysPokemon 專案的負責人 Joel Z 本人,都明確指出,這兩場由 AI 執行的寶可夢遊戲,並非在完全相同的條件下進行的標準化基準測試。這就像讓兩位學生考試,但給予的輔助工具與環境不同,即使最後的成績有差異,也很難直接斷定是誰的能力更強。

關鍵差異在於支撐 Gemini 和 Claude 玩遊戲的「代理程式框架」(Agent Harness)。這套框架是連接 LLM 模型與遊戲環境的橋樑,負責處理輸入資訊(遊戲畫面、數據)、提供輔助工具,並將模型的決策轉換為遊戲操作。

雖然雙方的框架都提供基本功能,例如接收遊戲畫面、存取遊戲數據、轉化按鍵指令等,但具體實作細節卻有顯著不同:

  • 資訊呈現方式: Gemini 的框架似乎提供更為友善的輸入資訊,例如在遊戲畫面上疊加詳細的文字標籤,甚至提供文字版的「小地圖」。這對於不擅長直接解析像素化遊戲畫面的 LLM 來說,提供巨大的幫助。
  • 輔助工具: 雖然兩者都有路徑規劃工具,但其自動化程度和實作方式可能不同。對於導航能力普遍較弱的 LLM 而言,一個強大的導航輔助工具能大幅提升其遊戲進度。
  • 開發階段與人為干預: GeminiPlaysPokemon 專案在進行直播時,仍處於活躍的開發和實驗階段。專案負責人 Joel Z 會在實驗過程中對框架進行調整,甚至在必要時給予模型一些關於遊戲機制而非攻略本身的提示。Claude 的專案在公開展示前也經歷優化過程,但 Gemini 的實驗更多是在「直播」整個開發與測試過程,這也影響實驗的可比性。

Joel Z 本人就謙虛地表示,他認為 Gemini 能走得更遠,很大程度上是得益於「更好的框架」,而非模型本身在「寶可夢能力」上大幅領先。他強調這些實驗不應被視為直接比較兩家模型優劣的基準。

這些實驗同時也顯示出目前 LLM 在處理這類任務時的一些普遍限制。即使有輔助框架,模型仍會花費大量的行動步數在無效的探索、重複的錯誤或困惑的思考上。有專家認為,如果框架提供了過多針對遊戲的「鷹架」(scaffolding),那測試的可能更多是框架設計的優劣,而非模型本身的遊戲理解能力或通用代理能力。理想的 LLM 遊戲基準測試,或許應在盡可能減少針對性輔助或確保輔助條件完全一致的前提下進行。

所以,Gemini 成功破關寶可夢《藍版》,無疑是 AI 代理程式在遊戲任務上達成的一個里程碑式成就。這證明結合強大的 LLM 模型與精心設計的輔助框架,AI 確實能在複雜且需要長期互動的環境中取得顯著進展。然而,我們必須了解由於與 Claude 的實驗在條件上存在諸多差異,單憑這次的成就和帳面數據,並不足以斷言目前 Gemini 在「玩寶可夢的能力」上絕對優於 Claude。

未來的我們在看各種 AI 遊戲挑戰,如果希望作為評估 LLM 能力的有效基準,將需要更加嚴謹的設計,確保各個模型選手在盡可能公平一致的環境與條件下進行測試,我們才能更清晰地看到不同模型本身在理解、規劃和執行複雜任務上的真正實力。

延伸閱讀

Read more

2026 雷射武器量產元年:為什麼突然從科幻變成現實

2026 雷射武器量產元年:為什麼突然從科幻變成現實

2025 年 12 月 28 日,以色列國防軍發布了一則看似平淡的公告:Iron Beam 系統正式納入國防體系。這是人類歷史上第一個被整合進國家防禦陣列的高能戰術雷射武器。沒有盛大的記者會,沒有政治人物的慷慨演說,只有一則簡短的聲明,宣告一個等待了四十年的技術終於從科幻走進現實。 四十年。從雷根總統在白宮宣布「星戰計畫」開始算起,美國國防部在雷射武器上投入的資金超過數百億美元,經歷了無數次的失敗、延期、預算刪減、計畫取消。每隔幾年就有人宣稱「雷射武器即將改變戰爭」,然後每隔幾年就有人宣布「雷射武器還需要再等十年」。到了 2010 年代,這個領域幾乎已經被主流國防圈放棄,變成少數學術機構和小型承包商在維持的冷門研究。 但 2025 年的情況完全不同。翻開美國國防部最近半年的新聞稿,雷射武器相關的合約公告密集得不尋常:nLight 拿到 1.71 億美元開發百萬瓦級雷射、Coherent 拿到 3,000 萬美元開發海軍 400 千瓦系統、

By Fox Hsiao
台灣贏了 Uber 之戰,但可能輸掉無人計程車時代

台灣贏了 Uber 之戰,但可能輸掉無人計程車時代

2014 年 7 月 7 日,台灣數百輛計程車包圍交通部大樓。中華民國計程車駕駛員工會全國聯合會率領司機走上街頭,抗議 Uber 這個「白牌車」App 搶走他們的生計,部分司機甚至當眾燒毀營業登記證。那是一場傳統計程車對抗矽谷新創的戰爭,最後台灣的計程車工會贏了,Uber 累計被罰約 11.56 億台幣後,2017 年 2 月暫停服務。 2026 年 1 月 22 日,Tesla 在美國德州 Austin 推出無人監督的 robotaxi 服務。車上沒有司機,沒有安全監督員,只有乘客。Tesla AI 主管 Ashok Elluswamy 在 X 上宣布,這是「

By Fox Hsiao
Tesla FSD 保費直接砍半!Lemonade 用數據重新定義汽車保險,高公局緩撞車佐證

Tesla FSD 保費直接砍半!Lemonade 用數據重新定義汽車保險,高公局緩撞車佐證

2026 年 1 月 21 日,美國保險科技公司 Lemonade 宣布推出「自動駕駛保險」(Autonomous Car Insurance),針對 Tesla 車主在 FSD(Full Self-Driving)啟用期間的里程,保費直接砍半。這不是促銷活動,也不是限時優惠,而是基於數據的風險重新定價。 Lemonade 共同創辦人 Shai Wininger 表示:「我們以極高解析度觀察你開車的每分每秒,Tesla 每秒發出數百萬個信號到我們的系統,我們根據這些數據定價。」透過與 Tesla 的數據合作,Lemonade 可以直接連接車載電腦,即時區分「人類駕駛」和「FSD 駕駛」的里程,並針對兩者給出不同的費率。 50% 的折扣幅度,遠超過 Tesla 自家保險的

By Fox Hsiao
AppLovin 這家數位廣告公司市值 1,400 億、剛進 S&P 500,被指控幫太子集團洗錢

AppLovin 這家數位廣告公司市值 1,400 億、剛進 S&P 500,被指控幫太子集團洗錢

AppLovin 是一家市值超過 1,400 億美元的數位廣告公司,2024 年被納入 S&P 500 指數成分股。如果你持有追蹤 S&P 500 的 ETF,你的退休金裡可能就有這家公司的股票。 一份調查報告稍早指控這家公司是跨國犯罪組織的「洗衣機」,報告的指控很具體:AppLovin 的主要股東與中國最大的 P2P 借貸詐騙案有關聯,與被美國財政部列為「跨國犯罪組織」的柬埔寨集團有關聯,與東南亞臭名昭彰的「殺豬盤」詐騙產業有關聯。這些犯罪組織透過在 AppLovin 平台上大量投放廣告,把髒錢變成乾淨的「廣告收入」。 AppLovin 是否有罪,我不知道。但我想用這個案例解釋一個多數人從未聽過的概念:廣告洗錢。 什麼是「廣告洗錢」? 傳統洗錢的邏輯很簡單:你有一筆來路不明的錢,需要把它變成看起來合法的收入。經典的方法包括開餐廳(虛報營業額)

By Fox Hsiao