Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Gemini 成功破關寶可夢,但這代表勝過 Claude 了嗎?

Google 執行長 Sundar Pichai 於 2025 年 5 月 3 日在 X 上分享的消息,他們的 Gemini 2.5 Pro 模型成功地「破關」經典遊戲《寶可夢 藍版》(Pokémon Blue)。畫面顯示,這項挑戰大約花了 106,505 個行動步數達成,最終擊敗遊戲裡的聯盟冠軍。這項成就,連同先前 Google 方面宣稱 Gemini 在寶可夢遊戲中比競爭對手 Claude 更快達到遊戲進度,都引發人們對 LLM 在這類任務上能力的討論。

Anthropic 在介紹其 Claude 3.7 Sonnet 模型時,曾闡述他們為何選擇寶可夢作為一個測試項目。他們認為,就像人類處理問題時會根據難易度投入不同的思考精力一樣,新的模型也具備了「延伸思考模式」和改進的「代理能力」,可以在面對複雜或開放式的任務時,投入更多資源、進行更深入的思考和規劃。

寶可夢這類遊戲,並非簡單的問答,而是一個需要 AI 作為一個「代理人」去感知環境、理解狀態、規劃行動,並在大量的時間步驟中持續維持目標的任務。它要求 AI 不斷地接收遊戲畫面(視覺輸入)、理解遊戲規則和目標、規劃下一步行動(例如移動、對話、戰鬥),並將思考結果轉換成遊戲操作(按下按鍵)。

Anthropic 認為,這種需要長期專注、環境互動和複雜決策的特性,恰好能測試模型在應對真實世界中需要持續互動和達成開放性目標任務時的潛力。早期的 LLM 可能連遊戲開始的房間都走不出去,而能力的提升則能讓模型嘗試更多策略,並在過程中進行自我改進。因此,寶可夢被視為一個能展現 AI 在長時間、多步驟任務中「維持專注並完成目標」能力的有趣且具有代表性的測試。

從公開的數據來看,Gemini 這次不僅完成遊戲,其總行動步數 (約 10.6萬) 也比先前 Claude 達到其最佳紀錄時 (約 21.5萬) 要少。如果單純比較這些數字,很容易會讓人覺得 Gemini 在玩寶可夢這件事上效率更高、能力更強。

然而,多位參與或關注這些實驗的專家,包括 GeminiPlaysPokemon 專案的負責人 Joel Z 本人,都明確指出,這兩場由 AI 執行的寶可夢遊戲,並非在完全相同的條件下進行的標準化基準測試。這就像讓兩位學生考試,但給予的輔助工具與環境不同,即使最後的成績有差異,也很難直接斷定是誰的能力更強。

關鍵差異在於支撐 Gemini 和 Claude 玩遊戲的「代理程式框架」(Agent Harness)。這套框架是連接 LLM 模型與遊戲環境的橋樑,負責處理輸入資訊(遊戲畫面、數據)、提供輔助工具,並將模型的決策轉換為遊戲操作。

雖然雙方的框架都提供基本功能,例如接收遊戲畫面、存取遊戲數據、轉化按鍵指令等,但具體實作細節卻有顯著不同:

  • 資訊呈現方式: Gemini 的框架似乎提供更為友善的輸入資訊,例如在遊戲畫面上疊加詳細的文字標籤,甚至提供文字版的「小地圖」。這對於不擅長直接解析像素化遊戲畫面的 LLM 來說,提供巨大的幫助。
  • 輔助工具: 雖然兩者都有路徑規劃工具,但其自動化程度和實作方式可能不同。對於導航能力普遍較弱的 LLM 而言,一個強大的導航輔助工具能大幅提升其遊戲進度。
  • 開發階段與人為干預: GeminiPlaysPokemon 專案在進行直播時,仍處於活躍的開發和實驗階段。專案負責人 Joel Z 會在實驗過程中對框架進行調整,甚至在必要時給予模型一些關於遊戲機制而非攻略本身的提示。Claude 的專案在公開展示前也經歷優化過程,但 Gemini 的實驗更多是在「直播」整個開發與測試過程,這也影響實驗的可比性。

Joel Z 本人就謙虛地表示,他認為 Gemini 能走得更遠,很大程度上是得益於「更好的框架」,而非模型本身在「寶可夢能力」上大幅領先。他強調這些實驗不應被視為直接比較兩家模型優劣的基準。

這些實驗同時也顯示出目前 LLM 在處理這類任務時的一些普遍限制。即使有輔助框架,模型仍會花費大量的行動步數在無效的探索、重複的錯誤或困惑的思考上。有專家認為,如果框架提供了過多針對遊戲的「鷹架」(scaffolding),那測試的可能更多是框架設計的優劣,而非模型本身的遊戲理解能力或通用代理能力。理想的 LLM 遊戲基準測試,或許應在盡可能減少針對性輔助或確保輔助條件完全一致的前提下進行。

所以,Gemini 成功破關寶可夢《藍版》,無疑是 AI 代理程式在遊戲任務上達成的一個里程碑式成就。這證明結合強大的 LLM 模型與精心設計的輔助框架,AI 確實能在複雜且需要長期互動的環境中取得顯著進展。然而,我們必須了解由於與 Claude 的實驗在條件上存在諸多差異,單憑這次的成就和帳面數據,並不足以斷言目前 Gemini 在「玩寶可夢的能力」上絕對優於 Claude。

未來的我們在看各種 AI 遊戲挑戰,如果希望作為評估 LLM 能力的有效基準,將需要更加嚴謹的設計,確保各個模型選手在盡可能公平一致的環境與條件下進行測試,我們才能更清晰地看到不同模型本身在理解、規劃和執行複雜任務上的真正實力。

延伸閱讀

Read more

OpenAI CEO:AI 神性、員工離奇死亡以及馬斯克

OpenAI CEO:AI 神性、員工離奇死亡以及馬斯克

人工智慧是否具有生命?這個問題在大型語言模型如 ChatGPT 問世後,反覆縈繞在許多人心中。它能推理、產生未經程式設定的結果,甚至看似擁有創造力。然而,OpenAI 的執行長山姆・阿特曼(Sam Altman)對此提出清晰的見解。他認為,這些系統並不具備生命。 「它們不會主動做任何事,除非你提出要求。」阿特曼說明,這些模型缺乏自主性或內在動機,只是被動地等待指令。他認為,使用者與之互動越久,那種看似生命的幻覺就越可能消散。儘管如此,它們作為工具的強大能力無庸置疑,展現出近似智慧的表現。 幻覺、謊言與數學機率 當人工智慧提供錯誤資訊時,究竟是產生「幻覺」還是蓄意「說謊」?阿特曼解釋,這兩者之間存在根本差異。他以一個早期模型的例子說明:若使用者提問「塔克・卡爾森總統是哪一年出生?」模型可能會編造一個年份,而非指出此人從未擔任總統。 這並非出於欺騙的意圖,而是一個基於訓練資料的數學機率問題。「因為在訓練過程中,直接否定使用者的前提,並不是最可能出現的回應。」模型會假設使用者的提問基於事實,然後在其龐大的資料庫中,

By Fox Hsiao
Palantir CEO Alex Karp :不用戰爭也能擊敗中國的「太極戰略」,你看懂了嗎?

Palantir CEO Alex Karp :不用戰爭也能擊敗中國的「太極戰略」,你看懂了嗎?

軟體公司 Palantir 執行長亞歷克斯·卡普(Alex Karp)是一位同時擁有忠實支持者與激烈抗議者的科技領袖。他的公開談話,不僅僅是關於技術或商業,更深刻地反映一種獨特的世界觀,一種關於建立、競爭與西方價值體系的哲學。在這場訪談中,卡普對環繞著他與公司的各種爭議,提出一套完整且充滿挑戰性的論述。 面對為何有人支持、有人反對的提問,卡普將其支持者描繪為「實踐者」(builders)。他認為,這群人懂得欣賞成果,他們衡量一項成就的標準,是基於其是否能超越外界普遍預期的懷疑與折扣。卡普直言:「實踐者們看見那些極具天賦的人,會對所有言論打上折扣,並根據超越這個折扣率的表現來衡量成就。」 Palantir 的發展歷程充滿反直覺的挑戰,從商業模式到公開形象,始終不被看好,但最終以卓越的成果贏得這群人的信賴。 另一方面,他將抗議者歸因於一種由學術機構灌輸的「失敗者崇高論」。他認為,許多抗議者深信自己無法進入科技的核心圈,因而轉向一種假設失敗者更高尚的哲學模型。卡普批判道:「當你認為自己處於失敗的那一方,你就會假設道德不可能站在你的對立面。」他認為,這種思維源於部分學術機構,這些機構將美

By Fox Hsiao
馬斯克最新訪談:兩萬鎂機器人、AI 超越人類、30年移民火星、衛星直連手機服務

馬斯克最新訪談:兩萬鎂機器人、AI 超越人類、30年移民火星、衛星直連手機服務

在 2025 ALL-IN 訪談中,伊隆・馬斯克分享他對旗下數個野心勃勃計畫的最新進展與未來藍圖,從特斯拉(Tesla)的人形機器人、xAI 的通用人工智慧,到太空探索公司 SpaceX 的星艦與星鏈計畫,勾勒出一幅以科技突破確保人類文明永續發展的宏偉願景。 Optimus:定義未來的勞動力 Musk 堅信,Optimus 人形機器人將是人類的巔峰之作,並將其形容為人類歷史上最偉大的產品。目前,開發團隊正在進行第三版設計的定稿工作。他分析,要成功打造一款能普及的通用型人形機器人,必須克服三大挑戰:擁有與人類相仿的靈巧雙手、一個能理解並與現實世界互動的人工智慧心智,以及大規模生產的能力。 在這些挑戰中,又以手部的設計最為艱鉅。人手經過長時間演化,本身就是一台極度精密的儀器,能執行各種複雜任務。他強調,要創造一個通用的人形機器人,就必須解決手部的問題。 另一個重大障礙是供應鏈的匱乏。Musk 表示,由於現今市場根本不存在適用於人形機器人的關鍵零組件,團隊必須從頭設計與製造。他無奈地說,這些關鍵零件根本買不到,因為它們在市面上並不存在。 之所以堅持採用人形設計,背後有其務實的考量

By Fox Hsiao
哈佛證實:AI正在扼殺新鮮人的第一份工作!6200萬筆數據揭露的殘酷真相

哈佛證實:AI正在扼殺新鮮人的第一份工作!6200萬筆數據揭露的殘酷真相

生成式人工智慧(Generative AI)的浪潮正席捲全球,其對勞動市場的衝擊成為各界關注的焦點。當前的討論多半圍繞在工作機會的增減與技能需求的轉變,然而,一份來自哈佛大學的最新研究,透過分析大規模的美國履歷與職缺數據,揭示一個更細微卻極其關鍵的趨勢:生成式AI的導入,可能正在不成比例地影響資淺員工的就業機會,形成一種「偏重資歷的技術變革」(seniority-biased technological change)。 這份名為《生成式AI作為偏重資歷的技術變革》的初步研究報告,由研究者Seyed M. Hosseini與Guy Lichtinger共同撰寫。他們檢視自2015年至2025年間,涵蓋近6200萬名工作者、分屬28萬5000家美國企業的履歷資料,以及超過2.45億筆的職缺公告,試圖描繪出AI技術擴散下,企業內部人力結構的真實變化。 數據揭示的關鍵轉折點 研究的核心發現,在於企業導入AI前後,不同資歷員工的僱用趨勢出現顯著分歧。過往從2015年到2022年中期,無論是資深或資淺員工,其就業增長率大致維持同步。然而,一個明確的轉折點出現在2023年第一季,這恰好是生成

By Fox Hsiao