圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?
The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。

75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。

研究結果令人驚訝:

  1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。
  2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。
  3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21%和23%的成功率。

研究結果表明,最先進的LLM在適當提示詞下,不僅能夠以假亂真,甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破,主要根據以下幾點:

  1. 勝率超過50%:根據論文數據,GPT-4.5(使用個性化提示詞)被判斷為人類的比率高達73%,顯著高於隨機猜測的50%。
  2. 超越真人表現:最關鍵的是,GPT-4.5不僅僅是"不被識別為AI",它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時,更傾向於認為AI是人類。
  3. 統計顯著性:研究在兩個獨立人群(大學生和Prolific平台用戶)進行測試,結果在統計上均顯著,表明這不是偶然現象。
  4. 對照組驗證:研究使用ELIZA作為操控檢驗,證明測試設計能夠有效區分弱AI和人類(ELIZA只有23%的成功率)。
  5. 嚴格的測試環境:研究採用標準的三方圖靈測試(而非簡化版本),每個數據點代表AI和人類的直接比較,這使得結果更具說服力。

根據上述證據,研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據",標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷?

研究分析了參與者用來識別人類的策略和理由:

  • 大多數參與者(61%)傾向於進行閒聊,詢問對方的日常活動或個人資訊
  • 50%的參與者探測對方的社交和情感特質,例如意見、情緒和幽默感
  • 僅有12%的參與者詢問知識或推理問題(如數學問題)

最有效的識別策略包括:說一些奇怪的話,觀察對方反應;或嘗試「越獄」提示(要求AI忽略先前指令)。然而,詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示,當代開放可用的大型語言模型已能在短暫對話中無縫替代真人,且對話者無法察覺。這意味著:

  1. 工作自動化:這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
  2. 社交互動替代:從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動,AI都可能成為無法察覺的替代品。
  3. 「假人」問題:如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果,包括人們可能花更多時間與這些人類互動的模擬品相處。
  4. 認知邊界模糊化:隨著機器越來越像人類,我們對於什麼使我們獨特的認識可能會改變,人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點,而是開始。這提醒我們,"智能"是複雜且多方面的,沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估,補充了傳統的靜態基準測試。正如研究者Brian Christian所言,機器通過圖靈測試可能標誌著一個新時代的開始,在這個時代,我們人類將需要重新思考什麼使我們真正成為人類,以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674,請訂閱本電子報。

Read more

寫程式碼已經是解決的問題,Claude Code 負責人的後 AGI 計畫是釀味噌

寫程式碼已經是解決的問題,Claude Code 負責人的後 AGI 計畫是釀味噌

本文整理自 2026 年 2 月 19 日 Lenny's Podcast 對 Claude Code 負責人 Boris Cherny 的專訪,並結合 SemiAnalysis 研究報告與多方報導。 兩週 2025 年 7 月,Boris Cherny 離開了 Anthropic。 他加入的是 Cursor,當時最受歡迎的 AI 程式碼編輯器之一。他喜歡這個產品,也很欽佩這個團隊,在他眼中 Cursor 的人比大多數人更早看見了 AI 寫程式碼的未來。 兩個星期後,他回到了 Anthropic。 在 Lenny Rachitsky 的 Podcast

By Fox Hsiao
SpaceX 用腿站、用筷子夾,中國選擇用繩子掛

SpaceX 用腿站、用筷子夾,中國選擇用繩子掛

2026 年 2 月 11 日上午 11 點,海南文昌航太發射場 3 號工位,一枚 67.4 公尺高的火箭點火升空。這次任務有兩個目標:測試夢舟載人太空船的逃逸系統,以及驗證火箭第一節能不能自己飛回來。 升空 66 秒後,火箭頂端的夢舟太空船啟動緊急逃逸,在最大動壓條件下彈射脫離,151 秒後七具 YF-100K 引擎關機,火箭第一節在 105 公里高空與任務酬載分離。到這裡為止,任務的前半段結束了。 接下來的六分鐘才是重點。 火箭第一節翻轉姿態、重新點燃兩具引擎,以超過每秒 1,700 公尺的速度開始減速,20 秒內降到每秒 1,300 公尺,持續調整軌道,最終在升空約 470 秒後落入南海海面,距離發射場 380

By Fox Hsiao
俄軍用 Starlink 打仗,現在被馬斯克斷網癱瘓

俄軍用 Starlink 打仗,現在被馬斯克斷網癱瘓

2026 年 2 月 5 日,SpaceX 在烏克蘭全境啟動 Starlink 白名單制度。所有未經註冊的衛星網路終端,一夕之間全部斷線。 俄軍前線的反應幾乎即時:士兵湧上 Telegram 抱怨通訊中斷,突擊行動在多個方向被迫暫停。烏克蘭國防部顧問轉述前線回報:「所有部隊的指揮管制都崩潰了。」 把這句話放在脈絡裡理解。俄羅斯,一個擁有核武的軍事大國,前線通訊竟然依賴馬斯克旗下的美國民間衛星網路服務。被切斷之後,指揮鏈就斷了。2026 年的俄軍,就是這個狀況。 Starlink:從鄉下上網到戰場生命線 Starlink 的概念不複雜。SpaceX 在低地球軌道部署了數千顆小型衛星,用戶只要買一台終端機,就能透過衛星訊號上網,不需要光纖,不需要基地台,訊號從太空直接打下來。對住在偏遠地區的人來說,這解決了一個老問題:有網路,但品質差到沒辦法正常使用。Starlink 繞過地表的距離限制,讓你在幾乎任何地方都能穩定連線。 2022 年俄烏戰爭爆發後,Starlink 迅速成為烏克蘭的關鍵基礎設施。

By Fox Hsiao
從稀土到白銀,中國的出口管制清單越來越長,記憶體會不會被加上去?

從稀土到白銀,中國的出口管制清單越來越長,記憶體會不會被加上去?

2026 年第一季,全球記憶體市場正在經歷一場罕見的供需失衡。 TrendForce 最新報告顯示,標準 DRAM 合約價單季暴漲 90% 到 95%,遠超原本預估的 55% 到 60%。NAND Flash 合約價季漲 55% 到 60%,企業級 SSD 漲幅 53% 到 58%,創下單季紀錄。IDC 等多家研究機構的共識是:這波缺貨至少持續到 2027 年,部分悲觀預測甚至認為要到 2030 年才會真正緩解。 缺貨的衝擊已經從供應鏈蔓延到消費者手上。Counterpoint Research 在去年底下修了 2026 年全球智慧型手機出貨預測,從原本的年增 3.3% 變成年減 2.1%,原因就是記憶體成本飆升,低階手機的物料成本因

By Fox Hsiao