Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Google 執行長 Sundar Pichai 於 2025 年 5 月 3 日在 X 上分享的消息,他們的 Gemini 2.5 Pro 模型成功地「破關」經典遊戲《寶可夢 藍版》(Pokémon Blue)。畫面顯示,這項挑戰大約花了 106,505 個行動步數達成,最終擊敗遊戲裡的聯盟冠軍。這項成就,連同先前 Google 方面宣稱 Gemini 在寶可夢遊戲中比競爭對手 Claude 更快達到遊戲進度,都引發人們對 LLM 在這類任務上能力的討論。

Anthropic 在介紹其 Claude 3.7 Sonnet 模型時,曾闡述他們為何選擇寶可夢作為一個測試項目。他們認為,就像人類處理問題時會根據難易度投入不同的思考精力一樣,新的模型也具備了「延伸思考模式」和改進的「代理能力」,可以在面對複雜或開放式的任務時,投入更多資源、進行更深入的思考和規劃。

寶可夢這類遊戲,並非簡單的問答,而是一個需要 AI 作為一個「代理人」去感知環境、理解狀態、規劃行動,並在大量的時間步驟中持續維持目標的任務。它要求 AI 不斷地接收遊戲畫面(視覺輸入)、理解遊戲規則和目標、規劃下一步行動(例如移動、對話、戰鬥),並將思考結果轉換成遊戲操作(按下按鍵)。

Anthropic 認為,這種需要長期專注、環境互動和複雜決策的特性,恰好能測試模型在應對真實世界中需要持續互動和達成開放性目標任務時的潛力。早期的 LLM 可能連遊戲開始的房間都走不出去,而能力的提升則能讓模型嘗試更多策略,並在過程中進行自我改進。因此,寶可夢被視為一個能展現 AI 在長時間、多步驟任務中「維持專注並完成目標」能力的有趣且具有代表性的測試。

從公開的數據來看,Gemini 這次不僅完成遊戲,其總行動步數 (約 10.6萬) 也比先前 Claude 達到其最佳紀錄時 (約 21.5萬) 要少。如果單純比較這些數字,很容易會讓人覺得 Gemini 在玩寶可夢這件事上效率更高、能力更強。

然而,多位參與或關注這些實驗的專家,包括 GeminiPlaysPokemon 專案的負責人 Joel Z 本人,都明確指出,這兩場由 AI 執行的寶可夢遊戲,並非在完全相同的條件下進行的標準化基準測試。這就像讓兩位學生考試,但給予的輔助工具與環境不同,即使最後的成績有差異,也很難直接斷定是誰的能力更強。

關鍵差異在於支撐 Gemini 和 Claude 玩遊戲的「代理程式框架」(Agent Harness)。這套框架是連接 LLM 模型與遊戲環境的橋樑,負責處理輸入資訊(遊戲畫面、數據)、提供輔助工具,並將模型的決策轉換為遊戲操作。

雖然雙方的框架都提供基本功能,例如接收遊戲畫面、存取遊戲數據、轉化按鍵指令等,但具體實作細節卻有顯著不同:

  • 資訊呈現方式: Gemini 的框架似乎提供更為友善的輸入資訊,例如在遊戲畫面上疊加詳細的文字標籤,甚至提供文字版的「小地圖」。這對於不擅長直接解析像素化遊戲畫面的 LLM 來說,提供巨大的幫助。
  • 輔助工具: 雖然兩者都有路徑規劃工具,但其自動化程度和實作方式可能不同。對於導航能力普遍較弱的 LLM 而言,一個強大的導航輔助工具能大幅提升其遊戲進度。
  • 開發階段與人為干預: GeminiPlaysPokemon 專案在進行直播時,仍處於活躍的開發和實驗階段。專案負責人 Joel Z 會在實驗過程中對框架進行調整,甚至在必要時給予模型一些關於遊戲機制而非攻略本身的提示。Claude 的專案在公開展示前也經歷優化過程,但 Gemini 的實驗更多是在「直播」整個開發與測試過程,這也影響實驗的可比性。

Joel Z 本人就謙虛地表示,他認為 Gemini 能走得更遠,很大程度上是得益於「更好的框架」,而非模型本身在「寶可夢能力」上大幅領先。他強調這些實驗不應被視為直接比較兩家模型優劣的基準。

這些實驗同時也顯示出目前 LLM 在處理這類任務時的一些普遍限制。即使有輔助框架,模型仍會花費大量的行動步數在無效的探索、重複的錯誤或困惑的思考上。有專家認為,如果框架提供了過多針對遊戲的「鷹架」(scaffolding),那測試的可能更多是框架設計的優劣,而非模型本身的遊戲理解能力或通用代理能力。理想的 LLM 遊戲基準測試,或許應在盡可能減少針對性輔助或確保輔助條件完全一致的前提下進行。

所以,Gemini 成功破關寶可夢《藍版》,無疑是 AI 代理程式在遊戲任務上達成的一個里程碑式成就。這證明結合強大的 LLM 模型與精心設計的輔助框架,AI 確實能在複雜且需要長期互動的環境中取得顯著進展。然而,我們必須了解由於與 Claude 的實驗在條件上存在諸多差異,單憑這次的成就和帳面數據,並不足以斷言目前 Gemini 在「玩寶可夢的能力」上絕對優於 Claude。

未來的我們在看各種 AI 遊戲挑戰,如果希望作為評估 LLM 能力的有效基準,將需要更加嚴謹的設計,確保各個模型選手在盡可能公平一致的環境與條件下進行測試,我們才能更清晰地看到不同模型本身在理解、規劃和執行複雜任務上的真正實力。

延伸閱讀

Read more

Kyle Vogt 創辦三家十億美元公司,這次他要用機器人終結你最討厭的家事

Kyle Vogt 創辦三家十億美元公司,這次他要用機器人終結你最討厭的家事

Kyle Vogt,這位成功創辦 Twitch 與 Cruise、兩家市值超過十億美元公司的連續創業家,如今將目光投向一個更具挑戰性、也更貼近日常的領域:家用機器人。他的新創事業 The Bot Company,試圖解答一個自現代科技萌芽以來,便縈繞在人們心中的夢想:我們何時能擁有一位真正的家務幫手? 這場深度對談,不僅揭示 The Bot Company 的產品哲學與商業策略,更是一位歷經多次創業浪潮洗禮的先行者,對於技術典範、團隊建構,乃至於創業初衷的深刻反思。 為何是現在?AI 賦予機器人全新靈魂 長久以來,家用機器人始終是科技界的聖杯,看似觸手可及,卻又遙不可及。從科幻小說到學術實驗室,無數原型機來來去去,但沒有一個能真正走入家庭,成為不可或缺的一員。Vogt 指出,關鍵的瓶頸在於,傳統機器人被設計來執行精準、重複的任務,它們在結構化的工廠環境中表現優異,但面對家庭這個充滿變數的場域,便顯得捉襟見肘。 家庭環境的複雜度,堪稱機器人版的「極限體能王」障礙賽。

By Fox Hsiao
川普 AI 霸權三本柱:法規鬆綁、能源自主、全球輸出,一柱都不能少!

川普 AI 霸權三本柱:法規鬆綁、能源自主、全球輸出,一柱都不能少!

川普開宗明義指出,人工智慧是本世紀最重要的技術革命,其影響力將遍及從醫療、製造到國防的每個領域。他將AI的發展視為一場攸關國家未來的激烈競賽,並斷言美國不僅是這場競賽的發起者,也必須成為最終的勝利者。他強調,不允許任何國家,特別是潛在的競爭對手,透過掌握AI技術來制定威脅美國價值觀與利益的全球規則。 為了實現「美國優先」的AI霸權,川普政府的政策將圍繞一個中心思想展開:為美國的創新者掃除一切障礙,並提供其所需的一切資源。這不僅是一句口號,更體現於他隨後簽署的一系列具體行政命令。 政策支柱一:鬆綁法規,釋放創新動能 川普論述中,最關鍵的一項政策是徹底改革美國的監管環境。他認為,當前由各州獨立制定法規的模式,將成為AI產業發展的致命枷鎖。他直言,若讓五十個州各自為政,那麼最嚴格、最保守的州法規將會成為全國的實質標準,迫使企業必須遵循最低的共同標準,從而扼殺創新與競爭力。他以過去廢除加州汽車排放標準為例,主張一個統一、理性的聯邦標準,才能避免企業陷入無盡的訴訟與法規泥沼。 他提出,政府的角色並非透過繁瑣的「紅頭繩」(red tape)來束縛產業,而是要提供明確的「綠燈」,鼓勵企業大

By Fox Hsiao
黃仁勳 : 川普總統是美國會贏得 AI 競賽的獨一無二優勢

黃仁勳 : 川普總統是美國會贏得 AI 競賽的獨一無二優勢

AI:創造就業的引擎與技能的平衡器 對於當前社會普遍擔憂 AI 將大規模取代人類工作,黃仁勳提出一個反直覺但基於企業實務的觀點。他認為,AI 的核心價值在於提升生產力。當一家公司擁有源源不絕的創新點子,AI 便成為實現這些點子的強大工具,讓企業能以前所未有的速度開發新產品、拓展新市場,進而帶動成長、創造出更多新的就業機會。他以輝達自身為例,無論是軟體工程師或晶片設計師,所有員工都已深度整合 AI 進入工作流程,結果是公司比以往任何時候都更加繁忙,因為過去許多難以實現的構想,如今都具備可行性。 更重要的是,黃仁勳將 AI 視為史上最強大的「技術平等化力量」。過去,程式設計、藝術創作或專業寫作,均設有相當高的技能門檻。如今,透過與 AI 對話,人人都能指揮電腦完成複雜任務。未來的程式語言,將不再是 C++ 或 Python,而是人類的自然語言。這意味著技術的鴻溝正被填平,每個人都有潛力成為程式設計師、藝術家或作家。 因此,真正的挑戰並非 AI

By Fox Hsiao
烏克蘭副總理闡述:AI、數據與去中心化如何成為他們扭轉戰局的關鍵

烏克蘭副總理闡述:AI、數據與去中心化如何成為他們扭轉戰局的關鍵

烏克蘭創新發展、教育、科學與技術副總理兼數位轉型部長米哈伊洛・費多羅夫(Mykhailo Fedorov)與其國防科技顧問喬治・茨哈卡亞(Georgii Tskhakaia),透過一場結合預錄影片與現場解說的深度訪談,揭示烏克蘭如何在資源極度不對等的戰爭中,憑藉科技創新、敏捷思維與數據驅動的決策,開創全新的戰爭型態。這場對話不僅是烏克蘭的戰時報告,更是一份關於未來國防科技發展的深刻洞見。 以不對稱戰略回應資源劣勢 訪談開宗明義指出,自俄羅斯全面入侵以來,烏克蘭的面貌產生根本性轉變。面對在傳統軍備、兵力與資源上均佔據絕對優勢的對手,烏克蘭深知若依循傳統的作戰思維,幾乎沒有獲勝的可能。這種現實壓力迫使烏克蘭必須尋找另一條路徑,一條更敏捷、更具成本效益且更依賴技術的道路。 顧問茨哈卡亞提出多個案例,具體說明這種「以小博大」的不對稱作戰思維如何實踐。例如,當缺乏足夠的反坦克飛彈(如標槍飛彈)時,烏克蘭工程師開發出成本僅數百美元的第一人稱視角(FPV)自殺式無人機。這些廉價的無人機卻能有效摧毀價值數百萬美元的坦克與重型裝甲,在戰線上造成巨大衝擊。 同樣的邏輯也應用在其他領域。為彌補火砲彈

By Fox Hsiao