圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?
The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。

75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。

研究結果令人驚訝:

  1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。
  2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。
  3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21%和23%的成功率。

研究結果表明,最先進的LLM在適當提示詞下,不僅能夠以假亂真,甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破,主要根據以下幾點:

  1. 勝率超過50%:根據論文數據,GPT-4.5(使用個性化提示詞)被判斷為人類的比率高達73%,顯著高於隨機猜測的50%。
  2. 超越真人表現:最關鍵的是,GPT-4.5不僅僅是"不被識別為AI",它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時,更傾向於認為AI是人類。
  3. 統計顯著性:研究在兩個獨立人群(大學生和Prolific平台用戶)進行測試,結果在統計上均顯著,表明這不是偶然現象。
  4. 對照組驗證:研究使用ELIZA作為操控檢驗,證明測試設計能夠有效區分弱AI和人類(ELIZA只有23%的成功率)。
  5. 嚴格的測試環境:研究採用標準的三方圖靈測試(而非簡化版本),每個數據點代表AI和人類的直接比較,這使得結果更具說服力。

根據上述證據,研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據",標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷?

研究分析了參與者用來識別人類的策略和理由:

  • 大多數參與者(61%)傾向於進行閒聊,詢問對方的日常活動或個人資訊
  • 50%的參與者探測對方的社交和情感特質,例如意見、情緒和幽默感
  • 僅有12%的參與者詢問知識或推理問題(如數學問題)

最有效的識別策略包括:說一些奇怪的話,觀察對方反應;或嘗試「越獄」提示(要求AI忽略先前指令)。然而,詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示,當代開放可用的大型語言模型已能在短暫對話中無縫替代真人,且對話者無法察覺。這意味著:

  1. 工作自動化:這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
  2. 社交互動替代:從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動,AI都可能成為無法察覺的替代品。
  3. 「假人」問題:如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果,包括人們可能花更多時間與這些人類互動的模擬品相處。
  4. 認知邊界模糊化:隨著機器越來越像人類,我們對於什麼使我們獨特的認識可能會改變,人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點,而是開始。這提醒我們,"智能"是複雜且多方面的,沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估,補充了傳統的靜態基準測試。正如研究者Brian Christian所言,機器通過圖靈測試可能標誌著一個新時代的開始,在這個時代,我們人類將需要重新思考什麼使我們真正成為人類,以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674,請訂閱本電子報。

Read more

如何抵抗大量無人機蜂群?Anduril Pulsar-L 將電磁戰力帶上前線,扭轉未來戰局

如何抵抗大量無人機蜂群?Anduril Pulsar-L 將電磁戰力帶上前線,扭轉未來戰局

高空之上,無數的無人機,如蝗蟲般,遮天蔽日,蠢蠢欲動。它們扇動著螺旋槳,發出低沉的嗡嗡聲,在空中盤旋襲捲著大地。戰士的目光銳利地則鎖定目標,毫不畏懼。他迅速拔出武器,槍口對準了可能存在的一切威脅。他隨時準備好,為守護他身後的一切而戰。透過簡單的控制台,看到了一切,也掌握了一切。突然,天空似乎破碎了,密密麻麻的無人機遮蔽了視線。這時,一陣金屬撞擊聲響起,地面震盪,無人機群開始墜落,失去控制,墜落於沙漠中。 這個令人屏息的場景,正生動地描繪了現代戰場的複雜與瞬息萬變,特別是面對日益普及且數量龐大的無人機威脅。而扭轉乾坤的關鍵,不再只是傳統的槍砲飛彈,更來自於一場看不見、摸不著的「無形戰爭」——電磁作戰(Electromagnetic Warfare, EW)。 長期以來,先進的電磁作戰系統因其複雜性、體積與操作難度,多半部署在大型軍艦、高價值飛機或固定的後方基地,難以有效支援最前線、最需要即時反應的戰術單位。然而,隨著科技進步與威脅型態演變(例如:大量且低成本的無人機),將強大的電磁戰力前推到「

By Fox Hsiao
YC合夥人談氛圍開發 (Vibe Coding) 的技巧

YC合夥人談氛圍開發 (Vibe Coding) 的技巧

馭 AI 而行:Vibe Coding 不只直覺,更是精準導引的新開發哲學 Y Combinator 合夥人 Tom 透過親身實驗發現,Vibe Coding 不僅能帶來令人驚豔的開發效率,更是一門可以透過學習與實踐不斷精進的技藝。這猶如當年「提示工程」興起之初,社群中不斷湧現新的竅門與最佳實踐。 然而,儘管名稱聽來不拘小節,許多能發揮 Vibe Coding 最大潛力的技巧,其實恰恰是資深軟體工程師們早已習以為常的專業工作方法。這場訪談集結 Tom 的觀察與 YC 新創團隊的實戰經驗,為我們揭示如何在與 AI 協作的新時代,更有效地將創意轉化為實際可運行的軟體。 啟動與規劃:穩健的第一步 要開始 Vibe Coding 之旅,選擇合適的工具是首要任務。對於沒有程式基礎的初學者或專注於使用者介面(UI)快速原型開發的設計師、產品經理而言,Replit 或 Lovable

By Fox Hsiao
學圍棋的時候,我其實是在重新學怎麼跟 AI 相處

學圍棋的時候,我其實是在重新學怎麼跟 AI 相處

前陣子在錄塞掐 podcast 訪談黑嘉嘉圍棋的行銷長 Yoyo 的時候,他提到他最近在做一堂圍棋課,講的是從基礎一路帶到 AI 對弈的學習體驗。 老實說,圍棋這題我以前比較少碰。不是沒興趣,是一直覺得這東西門檻太高,不知道怎麼進入門檻,也不知道怎麼學得有感。 但聊完之後我腦子一直在想:如果這個切角,是從「AI 如何陪你一起學」開始的呢? 再加上我本來就蠻推 AlphaGo 的紀錄片,那種人機交會、互相試探的過程,一直是我很著迷的議題。AI 不是工具,而是對話對象。當我們開始學會跟它互動,學會從它的角度思考,人類的學習曲線就會出現新的轉折點。 2016 年 AlphaGo 打敗李世乭那場比賽,大家應該都還記得。但我印象更深的,是李世乭幾年後在訪談裡說:AI 出現後,整體棋譜水準直接升了一個維度。 AI 不是只會快、算得準,而是下出了人類原本不會這樣選的路線。從那一刻起,我們就不只是用 AI,

By Fox Hsiao
《最後生還者》第二季首集 Future Days:末日新常態的史詩序章

《最後生還者》第二季首集 Future Days:末日新常態的史詩序章

作為一個只看過首季影集、只淺嚐遊戲 Part I 初期的資深影迷,終於等到《最後生還者》第二季開播,那種期待與興奮難以言喻。第一季以驚人的製作水準與情感深度征服全球觀眾,不僅是遊戲暢銷全球、改編後的影集更抱回艾美獎,無疑是實至名歸的肯定,當第二季首集〈未來歲月〉(Future Days)的片頭展開,那種熟悉又陌生的感受瞬間湧上心頭。 影集設定在第一季的五年之後,把我們帶到有著「正常」生活景象的懷俄明州傑克孫小鎮,這是相對安全的庇護所呈現出的末日後偏安,有組織的巡邏、運作且不斷茁壯的聚落社群,場景設計精緻入微,每一個環境細節都彷彿述說著這五年間的變遷。 最引人注目的莫過於喬爾與艾莉關係的微妙變化。第一季中那對相依為命的「父女」,如今卻瀰漫著難以言喻的疏離與緊張,也是本季片頭回顧第一季結尾那個道德兩難抉擇的結果,看著他們同框卻不再有溫馨對話,反而帶著沉默與偶發的怒氣,這種情感上的張力顯示出編劇對人性複雜度的準確把握。 影集的視覺效果有著驚人的水準,從傑克孫小鎮的冰封景觀、到廢墟超市建築的精細呈現、再到感染者的恐怖造型,每一幀畫面都經過精心設計與製作。環境細節的程度令人讚嘆,完全營造出

By Fox Hsiao