圖靈測試 75 年來首次被AI成功突破，GPT-4.5如何辦到的 ?

Fox Hsiao

02 4月 2025 — 5 min read

The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出，被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」：一位人類審問者同時與兩位受試者（一位人類和一位機器）進行文字對話，雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類，那麼機器就被認為通過了測試。

75年來，許多系統嘗試挑戰圖靈測試，但都未能成功。直到現在，研究人員發現大型語言模型（LLM）終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統：ELIZA（一種1960年代的規則型聊天機器人）、GPT-4o、LLaMa-3.1-405B和GPT-4.5，讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話，最後判斷哪一方是人類。

研究結果令人驚訝：

GPT-4.5：當被提示採用特定人物角色時，它被判斷為人類的比率高達73%，顯著超過了真人被識別的機率（27%）。
LLaMa-3.1-405B：同樣提示詞下，被判斷為人類的比率達56%，與真人不相上下。
對照組：未經特殊提示詞的GPT-4o和ELIZA則表現平平，僅有21%和23%的成功率。

研究結果表明，最先進的LLM在適當提示詞下，不僅能夠以假亂真，甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破，主要根據以下幾點：

勝率超過50%：根據論文數據，GPT-4.5（使用個性化提示詞）被判斷為人類的比率高達73%，顯著高於隨機猜測的50%。
超越真人表現：最關鍵的是，GPT-4.5不僅僅是"不被識別為AI"，它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時，更傾向於認為AI是人類。
統計顯著性：研究在兩個獨立人群（大學生和Prolific平台用戶）進行測試，結果在統計上均顯著，表明這不是偶然現象。
對照組驗證：研究使用ELIZA作為操控檢驗，證明測試設計能夠有效區分弱AI和人類（ELIZA只有23%的成功率）。
嚴格的測試環境：研究採用標準的三方圖靈測試（而非簡化版本），每個數據點代表AI和人類的直接比較，這使得結果更具說服力。

根據上述證據，研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據"，標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷？

研究分析了參與者用來識別人類的策略和理由：

大多數參與者（61%）傾向於進行閒聊，詢問對方的日常活動或個人資訊
50%的參與者探測對方的社交和情感特質，例如意見、情緒和幽默感
僅有12%的參與者詢問知識或推理問題（如數學問題）

最有效的識別策略包括：說一些奇怪的話，觀察對方反應；或嘗試「越獄」提示（要求AI忽略先前指令）。然而，詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示，當代開放可用的大型語言模型已能在短暫對話中無縫替代真人，且對話者無法察覺。這意味著：

工作自動化：這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
社交互動替代：從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動，AI都可能成為無法察覺的替代品。
「假人」問題：如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果，包括人們可能花更多時間與這些人類互動的模擬品相處。
認知邊界模糊化：隨著機器越來越像人類，我們對於什麼使我們獨特的認識可能會改變，人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點，而是開始。這提醒我們，"智能"是複雜且多方面的，沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估，補充了傳統的靜態基準測試。正如研究者Brian Christian所言，機器通過圖靈測試可能標誌著一個新時代的開始，在這個時代，我們人類將需要重新思考什麼使我們真正成為人類，以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674，請訂閱本電子報。

Anthropic 成長負責人：工程師變快 3 倍之後，PM 反而變成最稀缺的人

2026 年 2 月，Anthropic 的年化營收（ARR）達到 190 億美元，比 14 個月前的 10 億美元成長了 19 倍。對照組更荒謬：Atlassian、Palantir、Snowflake 這些老牌 B2B 軟體公司，經營 15 到 20 年之後的 ARR 大約落在 45 到 60 億美元之間，Anthropic 每隔幾個月就多加一個這樣的公司規模到自己的營收上。這樣的成長速度背後，Anthropic 的成長團隊規模小到不成比例。2025 年中，整個成長行銷只有 Austin Lau 一個人在扛，paid search、paid social、

AI 大神 Karpathy 的 AI 筆記流，一般人也能做到八成

我自己是幾乎不用筆記軟體的，身為一個不聰明的人，最常用的是 Apple 的備忘錄，但我覺得這篇大神的筆記流讓覺得蠻值得一試的，因為其實已經跟我現在用的 AI 工作流有點像，介於有筆記跟沒筆記中間惹 (?) 一般而言，大多數人用 ChatGPT 的方式，像是去便利商店買東西：有問題，問一下，拿到答案，關掉視窗，下次再從零開始。Karpathy 和 Lex Fridman 做的事情完全不同，他們讓 AI 幫自己蓋了一座圖書館，而且這座圖書館會自己長大。這篇文章會拆解這兩位 AI 領域最頂尖的人怎麼用 AI 做筆記，然後告訴你：不用寫程式，你也能做到八成。先搞懂一件事：你用 AI 的方式可能一直在浪費想像你手邊有兩個實習生，做事方式完全不同。實習生 A，你每次丟一個問題給他，他回答完就失憶了，下次問類似的問題，他又從頭查一遍。實習生

公司即智能體：Block 提出管理史上最激進的組織架構

2026 年 3 月 31 日，Sequoia Capital 合夥人 Roelof Botha 和 Block 創辦人 Jack Dorsey 聯名發表了一篇萬字長文，標題是「From Hierarchy to Intelligence」。這篇文章引用了羅馬軍團、普魯士參謀制度、曼哈頓計畫，論述的核心只有一件事：AI 可以取代兩千年來人類唯一的大規模協調機制，也就是層級管理。 Sequoia 的合夥人通常發布的是市場趨勢報告或投資備忘錄，不是組織管理論文。Botha 這次親自下場，把自己的名字和 Dorsey 並列，代表 Sequoia 認為這件事的重要性超越了單一公司的內部改造。但時間點很微妙，Block 在 2026 年 2 月剛裁掉了約 40% 的員工，大約四千人，

Anthropic 設計主管 Jenny：每週一早上十點，AI 已經幫我準備好三個產品方向

上個月寫了一篇 Anthropic 設計主管 Jenny Wen 的訪談分析，她在柏林對著滿場設計師說「設計流程已死」，三個月後回頭看那場演講，覺得內容已經過時了。那篇文章談的是哲學：AI 時代你的專業還值不值錢。這篇談的是實作，Jenny 最近上了 Peter Yang 的 Podcast，這次她沒有講設計流程死不死的問題，而是直接打開螢幕示範：在流程死掉之後，她每天到底怎麼工作。每週一早上十點，她的電腦會自動跑出一份簡報，裡面有三個經過驗證的產品方向，附帶線框稿和優先級建議。她不需要開任何會議，不需要手動整理任何資料，這些全部是 Claude Cowork 的排程任務在背景完成的。 Jenny Wen 目前是 Anthropic 的 Cowork 設計負責人，之前在 Figma 帶過 FigJam 和 Slides 的設計團隊。這集 40