Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Share
Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Google 執行長 Sundar Pichai 於 2025 年 5 月 3 日在 X 上分享的消息,他們的 Gemini 2.5 Pro 模型成功地「破關」經典遊戲《寶可夢 藍版》(Pokémon Blue)。畫面顯示,這項挑戰大約花了 106,505 個行動步數達成,最終擊敗遊戲裡的聯盟冠軍。這項成就,連同先前 Google 方面宣稱 Gemini 在寶可夢遊戲中比競爭對手 Claude 更快達到遊戲進度,都引發人們對 LLM 在這類任務上能力的討論。

Anthropic 在介紹其 Claude 3.7 Sonnet 模型時,曾闡述他們為何選擇寶可夢作為一個測試項目。他們認為,就像人類處理問題時會根據難易度投入不同的思考精力一樣,新的模型也具備了「延伸思考模式」和改進的「代理能力」,可以在面對複雜或開放式的任務時,投入更多資源、進行更深入的思考和規劃。

寶可夢這類遊戲,並非簡單的問答,而是一個需要 AI 作為一個「代理人」去感知環境、理解狀態、規劃行動,並在大量的時間步驟中持續維持目標的任務。它要求 AI 不斷地接收遊戲畫面(視覺輸入)、理解遊戲規則和目標、規劃下一步行動(例如移動、對話、戰鬥),並將思考結果轉換成遊戲操作(按下按鍵)。

Anthropic 認為,這種需要長期專注、環境互動和複雜決策的特性,恰好能測試模型在應對真實世界中需要持續互動和達成開放性目標任務時的潛力。早期的 LLM 可能連遊戲開始的房間都走不出去,而能力的提升則能讓模型嘗試更多策略,並在過程中進行自我改進。因此,寶可夢被視為一個能展現 AI 在長時間、多步驟任務中「維持專注並完成目標」能力的有趣且具有代表性的測試。

從公開的數據來看,Gemini 這次不僅完成遊戲,其總行動步數 (約 10.6萬) 也比先前 Claude 達到其最佳紀錄時 (約 21.5萬) 要少。如果單純比較這些數字,很容易會讓人覺得 Gemini 在玩寶可夢這件事上效率更高、能力更強。

然而,多位參與或關注這些實驗的專家,包括 GeminiPlaysPokemon 專案的負責人 Joel Z 本人,都明確指出,這兩場由 AI 執行的寶可夢遊戲,並非在完全相同的條件下進行的標準化基準測試。這就像讓兩位學生考試,但給予的輔助工具與環境不同,即使最後的成績有差異,也很難直接斷定是誰的能力更強。

關鍵差異在於支撐 Gemini 和 Claude 玩遊戲的「代理程式框架」(Agent Harness)。這套框架是連接 LLM 模型與遊戲環境的橋樑,負責處理輸入資訊(遊戲畫面、數據)、提供輔助工具,並將模型的決策轉換為遊戲操作。

雖然雙方的框架都提供基本功能,例如接收遊戲畫面、存取遊戲數據、轉化按鍵指令等,但具體實作細節卻有顯著不同:

  • 資訊呈現方式: Gemini 的框架似乎提供更為友善的輸入資訊,例如在遊戲畫面上疊加詳細的文字標籤,甚至提供文字版的「小地圖」。這對於不擅長直接解析像素化遊戲畫面的 LLM 來說,提供巨大的幫助。
  • 輔助工具: 雖然兩者都有路徑規劃工具,但其自動化程度和實作方式可能不同。對於導航能力普遍較弱的 LLM 而言,一個強大的導航輔助工具能大幅提升其遊戲進度。
  • 開發階段與人為干預: GeminiPlaysPokemon 專案在進行直播時,仍處於活躍的開發和實驗階段。專案負責人 Joel Z 會在實驗過程中對框架進行調整,甚至在必要時給予模型一些關於遊戲機制而非攻略本身的提示。Claude 的專案在公開展示前也經歷優化過程,但 Gemini 的實驗更多是在「直播」整個開發與測試過程,這也影響實驗的可比性。

Joel Z 本人就謙虛地表示,他認為 Gemini 能走得更遠,很大程度上是得益於「更好的框架」,而非模型本身在「寶可夢能力」上大幅領先。他強調這些實驗不應被視為直接比較兩家模型優劣的基準。

這些實驗同時也顯示出目前 LLM 在處理這類任務時的一些普遍限制。即使有輔助框架,模型仍會花費大量的行動步數在無效的探索、重複的錯誤或困惑的思考上。有專家認為,如果框架提供了過多針對遊戲的「鷹架」(scaffolding),那測試的可能更多是框架設計的優劣,而非模型本身的遊戲理解能力或通用代理能力。理想的 LLM 遊戲基準測試,或許應在盡可能減少針對性輔助或確保輔助條件完全一致的前提下進行。

所以,Gemini 成功破關寶可夢《藍版》,無疑是 AI 代理程式在遊戲任務上達成的一個里程碑式成就。這證明結合強大的 LLM 模型與精心設計的輔助框架,AI 確實能在複雜且需要長期互動的環境中取得顯著進展。然而,我們必須了解由於與 Claude 的實驗在條件上存在諸多差異,單憑這次的成就和帳面數據,並不足以斷言目前 Gemini 在「玩寶可夢的能力」上絕對優於 Claude。

未來的我們在看各種 AI 遊戲挑戰,如果希望作為評估 LLM 能力的有效基準,將需要更加嚴謹的設計,確保各個模型選手在盡可能公平一致的環境與條件下進行測試,我們才能更清晰地看到不同模型本身在理解、規劃和執行複雜任務上的真正實力。

延伸閱讀

Read more

Rocket Lab 的 Peter Beck 如何在富豪們的太空夢間殺出血路

Rocket Lab 的 Peter Beck 如何在富豪們的太空夢間殺出血路

《Relentless》podcast 主持人 Ti Morse 飛到紐西蘭的 Rocket Lab 總部,在訪談一開始就把數字攤開,Rocket Lab 過去五年的發射從 6 次長到 21 次,SpaceX 從 2021 年的 31 次長到 2025 年的 165 次,整個商業太空產業的擴張速度以倍數在跳。兩間公司的起點落差很大,早期馬斯克(Elon Musk)手上有 1 億美元的啟動資金,Ti Morse 問 Peter Beck 有多少,Peter 在鏡頭前帶著紐西蘭式幽默回答「100 美元」。後來他飛到美國募資時,給自己三週時間要拿到支票或滾出城。 兩間公司最後都做到每週一飛的發射節奏,但 Rocket

By Fox Hsiao
AI 時代 Claude Code 育兒法:她用 11 個代理人換來兩小時不理小孩

AI 時代 Claude Code 育兒法:她用 11 個代理人換來兩小時不理小孩

一個已經放棄技術夢的媽媽,養四個五歲以下的孩子 Jesse Genet 是 YC 2015 屆的創辦人,那家叫 Lumi 的包裝公司,幾年前賣掉了。離開戰場之後,她回歸家庭生下四個孩子,現在最大的五歲、最小的才四個月,全部在家自學。她原本打算未來五年不碰任何需要技術能力的新東西,這不是沮喪,只是承認現在的時間分配容不下那些。 六個月前這件事被翻過來了,她第一次打開終端機開始寫東西。兩三個月前她看著 Obsidian 社群的朋友聊 Claude Code,想清楚一件事:她可以趁孩子睡覺或自己玩的時候,建一群代理人替她工作。現在她有 11 個代理人,每天處理自學課表、教材採購、DoorDash 雜貨、家庭記帳,甚至能在她不碰 Mac Mini 的情況下,自己長出新的代理人。 這篇文章不是要你羨慕她有 11 個分身,真正值得記下來的是她反覆提到的一個詞:benevolent neglect,有意為之的放手。

By Fox Hsiao
NASA 月球基地計畫攤開看:三階段、七子系統、採購清單全公開

NASA 月球基地計畫攤開看:三階段、七子系統、採購清單全公開

這份文件該被當成徵求提案書來讀 2026 年 3 月 24 日,NASA 在華盛頓總部辦了一場叫「點火」(Ignition)的活動,邀請產業代表與國際太空社群到場。署長 Jared Isaacman 當場宣布,美國要在月球南極建一座月球基地(Moon Base),採分階段迭代推進。 這類宣示本身不稀奇,Artemis(NASA 自 2017 年啟動的月球重返計畫)已經喊了好幾年,大家多少聽過;真正值得停下來看的,是 NASA 在這次活動同步釋出的一份 16 頁文件《月球基地架構使用者指南》(Moon Base Architecture User's Guide)。 文件的真正讀者是產業、學界、國際夥伴,NASA 把月球基地要做的事、自己還不會的事、希望外面接哪幾塊,

By Fox Hsiao