圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?
The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。

75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。

研究結果令人驚訝:

  1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。
  2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。
  3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21%和23%的成功率。

研究結果表明,最先進的LLM在適當提示詞下,不僅能夠以假亂真,甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破,主要根據以下幾點:

  1. 勝率超過50%:根據論文數據,GPT-4.5(使用個性化提示詞)被判斷為人類的比率高達73%,顯著高於隨機猜測的50%。
  2. 超越真人表現:最關鍵的是,GPT-4.5不僅僅是"不被識別為AI",它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時,更傾向於認為AI是人類。
  3. 統計顯著性:研究在兩個獨立人群(大學生和Prolific平台用戶)進行測試,結果在統計上均顯著,表明這不是偶然現象。
  4. 對照組驗證:研究使用ELIZA作為操控檢驗,證明測試設計能夠有效區分弱AI和人類(ELIZA只有23%的成功率)。
  5. 嚴格的測試環境:研究採用標準的三方圖靈測試(而非簡化版本),每個數據點代表AI和人類的直接比較,這使得結果更具說服力。

根據上述證據,研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據",標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷?

研究分析了參與者用來識別人類的策略和理由:

  • 大多數參與者(61%)傾向於進行閒聊,詢問對方的日常活動或個人資訊
  • 50%的參與者探測對方的社交和情感特質,例如意見、情緒和幽默感
  • 僅有12%的參與者詢問知識或推理問題(如數學問題)

最有效的識別策略包括:說一些奇怪的話,觀察對方反應;或嘗試「越獄」提示(要求AI忽略先前指令)。然而,詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示,當代開放可用的大型語言模型已能在短暫對話中無縫替代真人,且對話者無法察覺。這意味著:

  1. 工作自動化:這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
  2. 社交互動替代:從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動,AI都可能成為無法察覺的替代品。
  3. 「假人」問題:如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果,包括人們可能花更多時間與這些人類互動的模擬品相處。
  4. 認知邊界模糊化:隨著機器越來越像人類,我們對於什麼使我們獨特的認識可能會改變,人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點,而是開始。這提醒我們,"智能"是複雜且多方面的,沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估,補充了傳統的靜態基準測試。正如研究者Brian Christian所言,機器通過圖靈測試可能標誌著一個新時代的開始,在這個時代,我們人類將需要重新思考什麼使我們真正成為人類,以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674,請訂閱本電子報。

Read more

Manus 實用主義的勝利:從微信插件、套殼大賺到 Meta 副總的十年長征

Manus 實用主義的勝利:從微信插件、套殼大賺到 Meta 副總的十年長征

2025 年 12 月 30 日,Meta 宣佈收購 Manus,創辦人肖弘出任副總裁。這是一個關於「非典型矽谷英雄」的故事:一個從中國微信生態起家、曾被鄙視為做「套殼」產品的創業者,如何用極致的產品落地能力,在 AI 時代贏得了一張通往未來的門票。 楔子:門洛帕克的十日閃電 2025 年 12 月的加州門洛帕克,空氣中瀰漫著一種不尋常的躁動。 Meta 總部的一間會議室裡,馬克·祖克柏正在把玩一款軟體。他的眼神裡很少流露出這樣的興奮——上一回可能還要追溯到十年前他第一次看到 Oculus Rift 的時候。 這款軟體叫 Manus。 「快到還懷疑過這是不是一個假的 offer。」真格基金合夥人劉元後來回憶道。 一筆涉及數十億美元、足以改變 AI 版圖的收購案,通常需要數月的盡職調查、法務審核和談判拉鋸。但在這裡,從祖克柏拍板到最終簽字,

By Fox Hsiao
從中國信貸危機到太陽能革命:一場關於白銀的完美風暴

從中國信貸危機到太陽能革命:一場關於白銀的完美風暴

聖誕節前的「白銀十日」 2025 年 12 月,當許多人正準備放聖誕假時,貴金屬市場發生了一場無聲的暴動。 在短短 10 天內,白銀價格飆漲了 25%。這不是那種溫和的、跟隨通膨調整的上漲,而是一種帶著恐慌味道的暴力拉升。如果你盯著螢幕,你會看到幾個極其反常的訊號同時亮起: 1. 現貨溢價(Backwardation)創下數十年新高:在倫敦金屬交易所,現貨白銀的價格比期貨價格高得離譜。交易員們寧願現在就拿到銀條,也不願等待一個月後的期貨交割。這是實物短缺最直接的訊號。 2. 東西方價差失控:上海的實物白銀溢價一度飆到了 14 美元。這意味著,同一盎司的白銀,在上海比在倫敦貴了 14 美元。這如同一台巨大的抽水機,正將西方的白銀庫存瘋狂地抽往東方。 3. 租借利率飆升:做空白銀的成本在一夜之間變得極其昂貴,因為你要借到白銀來賣空的難度幾乎是指數級上升。 面對如此凌厲的漲勢,市場陷入了 FOMO(錯失恐懼症)的集體焦慮。社群媒體上充斥著「白銀將衝向

By Fox Hsiao
200 億美元的最後拼圖:Nvidia 為何需要 Groq 作為聖誕禮物?

200 億美元的最後拼圖:Nvidia 為何需要 Groq 作為聖誕禮物?

2025 年的聖誕節前夕,矽谷投下了一顆震撼彈。AI 晶片霸主 Nvidia 宣布以約 200 億美元的現金,達成與新創獨角獸 Groq 的戰略協議。 有趣的是,這並不是一場傳統意義上的「併購」(Acquisition)。Groq 這家公司還在,網站活躍,新任 CEO Simon Edwards 也將繼續帶領公司營運雲端服務。 但 Nvidia 帶走了最重要的兩樣東西: 1. IP (智慧財產權):Groq 獨步全球的 LPU (Language Processing Unit) 架構與專利(採非獨家授權模式)。 2. 人 (Talent):Groq 創辦人 Jonathan Ross、總裁 Sunny Madra 以及核心工程團隊。 這是一場典型的「

By Fox Hsiao
百年教育體系該革命了:李飛飛給焦慮家長的 AI 分享

百年教育體系該革命了:李飛飛給焦慮家長的 AI 分享

作為 AI 領域的教母級人物,李飛飛(Fei-Fei Li)是史丹佛大學以人為本人工智能研究院(HAI)的創始院長,更一手打造了 ImageNet 圖像識別資料庫,開啟了深度學習的黃金時代。然而,這樣一位站在科技巔峰的科學家,卻始終保持著對「人」的深切關懷。 「我其實不懂什麼叫 AI 就是世界。」李飛飛在訪談中這麼說,語氣裡帶著科學家特有的嚴謹,「我也不信仰 AI,我信仰的是人。」 這句話聽起來,在當今這個對 AGI(通用人工智慧)頂禮膜拜的時代,甚至有點無聊。畢竟,宣稱 AI 將產生意識、將統治世界、將成為新的上帝,聽起來要性感得多。但李飛飛選擇了一條更為艱難、也更為溫暖的路。 她反覆強調一個聽起來毫無新意的概念:「AI 只是工具」。 但「工具」二字背後,隱藏著她對人類主體性(Agency)的極致捍衛。

By Fox Hsiao