圖靈測試 75 年來首次被AI成功突破，GPT-4.5如何辦到的 ?

The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出，被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」：一位人類審問者同時與兩位受試者（一位人類和一位機器）進行文字對話，雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類，那麼機器就被認為通過了測試。

75年來，許多系統嘗試挑戰圖靈測試，但都未能成功。直到現在，研究人員發現大型語言模型（LLM）終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統：ELIZA（一種1960年代的規則型聊天機器人）、GPT-4o、LLaMa-3.1-405B和GPT-4.5，讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話，最後判斷哪一方是人類。

研究結果令人驚訝：

GPT-4.5：當被提示採用特定人物角色時，它被判斷為人類的比率高達73%，顯著超過了真人被識別的機率（27%）。
LLaMa-3.1-405B：同樣提示詞下，被判斷為人類的比率達56%，與真人不相上下。
對照組：未經特殊提示詞的GPT-4o和ELIZA則表現平平，僅有21%和23%的成功率。

研究結果表明，最先進的LLM在適當提示詞下，不僅能夠以假亂真，甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破，主要根據以下幾點：

勝率超過50%：根據論文數據，GPT-4.5（使用個性化提示詞）被判斷為人類的比率高達73%，顯著高於隨機猜測的50%。
超越真人表現：最關鍵的是，GPT-4.5不僅僅是"不被識別為AI"，它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時，更傾向於認為AI是人類。
統計顯著性：研究在兩個獨立人群（大學生和Prolific平台用戶）進行測試，結果在統計上均顯著，表明這不是偶然現象。
對照組驗證：研究使用ELIZA作為操控檢驗，證明測試設計能夠有效區分弱AI和人類（ELIZA只有23%的成功率）。
嚴格的測試環境：研究採用標準的三方圖靈測試（而非簡化版本），每個數據點代表AI和人類的直接比較，這使得結果更具說服力。

根據上述證據，研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據"，標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷？

研究分析了參與者用來識別人類的策略和理由：

大多數參與者（61%）傾向於進行閒聊，詢問對方的日常活動或個人資訊
50%的參與者探測對方的社交和情感特質，例如意見、情緒和幽默感
僅有12%的參與者詢問知識或推理問題（如數學問題）

最有效的識別策略包括：說一些奇怪的話，觀察對方反應；或嘗試「越獄」提示（要求AI忽略先前指令）。然而，詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示，當代開放可用的大型語言模型已能在短暫對話中無縫替代真人，且對話者無法察覺。這意味著：

工作自動化：這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
社交互動替代：從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動，AI都可能成為無法察覺的替代品。
「假人」問題：如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果，包括人們可能花更多時間與這些人類互動的模擬品相處。
認知邊界模糊化：隨著機器越來越像人類，我們對於什麼使我們獨特的認識可能會改變，人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點，而是開始。這提醒我們，"智能"是複雜且多方面的，沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估，補充了傳統的靜態基準測試。正如研究者Brian Christian所言，機器通過圖靈測試可能標誌著一個新時代的開始，在這個時代，我們人類將需要重新思考什麼使我們真正成為人類，以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674，請訂閱本電子報。

前 CIA 局長在《外交事務》說明，台灣需要讀懂的事：主權國防戰略生態系

裴卓斯（David Petraeus）指揮過駐伊拉克與阿富汗聯軍、當過美國中央司令部司令，退役後接掌 CIA。7 月初，他和在烏克蘭營運 AI 非營利組織的 Clara Kaluderovic 在《外交事務》（Foreign Affairs）合寫了一篇文章，標題就點名台灣，〈台灣一直沒學到的烏克蘭課〉，副標是「問題不在無人機，在無人機周圍的一切」。文章的出發點，是擔心各國軍方把烏克蘭戰場讀成一份採購目錄。無人機便宜又有效，那就編預算買無人機，看起來這樣學最快，但兩位作者認為這樣只學到皮毛，烏克蘭真正的本事，是圍繞這些便宜武器搭起來的整套生態系，而他們判斷最可能錯過這一課的地方，正是同樣面對強鄰入侵威脅的台灣。烏克蘭真正的武器是生態系這套生態系怎麼運作，黑海看得最清楚，2022 年 2 月開戰時，烏克蘭為了不讓旗艦落入俄軍手中，自己把它鑿沉，等於一開戰就沒有海軍。兩年之內，這個沒有海軍的國家把俄軍黑海艦隊逐出塞凡堡母港，摧毀、重創超過三分之一的黑海艦艇，剩下的船只能躲到離烏克蘭最遠的港口，做法是空中無人機負責找船、

68 歲拒絕交棒、全押 AI：孫正義要讓 SoftBank 衝上 1,000 兆日圓

六月二十四日，孫正義（Masayoshi Son）站上 SoftBank 第四十六屆股東會的講台，沒有先講財報數字，而是先講了一隻鵝。十六年前，這隻鵝在市場眼中的價值是零。這場股東會的氣氛，跟一個多月前那場財報說明會不太一樣。五月那場是財務長後藤芳光主講，孫正義因為膝蓋還在復原沒上台。這次他自己來了，講了快一個半小時，從一隻會下金蛋的鵝講到他父親臨終前的最後一句話，中間夾著一個聽起來像天文數字的目標，一千兆日圓。十六年前，那隻鵝值零元孫正義用的是大家從小就聽過的那個寓言，會下金蛋的鵝。他把一顆金蛋換算成一兆日圓，然後帶大家回到十六年前。那是 2010 年，SoftBank 創立三十週年，他在股東會上發表「新三十年願景」。當時集團的持股權益價值是五兆日圓，等於五顆金蛋，扣掉兩兆日圓的負債，股東淨值（NAV）剛好三兆日圓，也就是三顆金蛋。問題出在另一個數字上，當年 SoftBank 的市值也是三兆日圓，跟淨值一模一樣。這代表什麼？孫正義的帳是這樣算的，淨值已經把帳上看得到的三顆蛋算進去了，市值卻只值三顆蛋的錢，那麼會下蛋的這隻鵝本身，

把國防部當新創公司重開機：烏克蘭最年輕國防部長的五個月

烏克蘭網路上流傳一個關於費多羅夫的迷因，前後兩個版本剛好說明了這個人的轉變。早一點的版本是：「費多羅夫，能不能讓我們在 Diia App 上結婚？」現在的版本變成：「我想殺五萬個俄羅斯人。」一個把政府服務搬上手機、讓人民用 App 辦結婚的數位部長，五個月前接下了一個會用「每平方公里殲滅人數」當績效指標的位子。 2026 年 1 月，米哈伊洛·費多羅夫（Mykhailo Fedorov）從數位轉型部長轉任國防部長，成為烏克蘭史上最年輕的國防部長。他接手的爛攤子，用他自己整理的數字來看：3000 億赫夫納（hryvnia，烏克蘭貨幣，以 2026 年 6 月匯率約合 67 億美元）的預算赤字、大約 20 萬的兵力缺口、首都基輔瀕臨全面停電，而其他城市還在被沙赫德（Shahed）無人機砸。總統交給他的第一道命令很具體，把領土徵兵中心那套被罵到臭頭的強制動員機制收拾乾淨。

Claude 官方指南，如何打造 AI 原生新創公司

Anthropic 最近出了一本給創業者的電子書《The Founder's Playbook: Building an AI-Native Startup》，把創業的四個階段，構想（Idea）、最小可行產品（MVP）、上線（Launch）、規模化（Scale），按「AI 是核心基礎設施」拆解一遍。整本手冊其實建立在一個前提上，當寫程式、做研究、跑營運都能交給 AI agent，創辦人剩下要煩惱的，就只有方向對不對。其中有個重要的提示，做得越快、越輕鬆，犯錯的代價反而越大，手冊引用了一個數字：在 AI 自主寫程式這類工具出現之前，就已經有 42% 的新創死於做出沒人要的東西，作者直接預測，這個比率只會往上爬。工具把「做出來」的門檻降到接近零，卻沒有同步降低「