圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?
The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。

75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。

研究結果令人驚訝:

  1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。
  2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。
  3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21%和23%的成功率。

研究結果表明,最先進的LLM在適當提示詞下,不僅能夠以假亂真,甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破,主要根據以下幾點:

  1. 勝率超過50%:根據論文數據,GPT-4.5(使用個性化提示詞)被判斷為人類的比率高達73%,顯著高於隨機猜測的50%。
  2. 超越真人表現:最關鍵的是,GPT-4.5不僅僅是"不被識別為AI",它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時,更傾向於認為AI是人類。
  3. 統計顯著性:研究在兩個獨立人群(大學生和Prolific平台用戶)進行測試,結果在統計上均顯著,表明這不是偶然現象。
  4. 對照組驗證:研究使用ELIZA作為操控檢驗,證明測試設計能夠有效區分弱AI和人類(ELIZA只有23%的成功率)。
  5. 嚴格的測試環境:研究採用標準的三方圖靈測試(而非簡化版本),每個數據點代表AI和人類的直接比較,這使得結果更具說服力。

根據上述證據,研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據",標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷?

研究分析了參與者用來識別人類的策略和理由:

  • 大多數參與者(61%)傾向於進行閒聊,詢問對方的日常活動或個人資訊
  • 50%的參與者探測對方的社交和情感特質,例如意見、情緒和幽默感
  • 僅有12%的參與者詢問知識或推理問題(如數學問題)

最有效的識別策略包括:說一些奇怪的話,觀察對方反應;或嘗試「越獄」提示(要求AI忽略先前指令)。然而,詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示,當代開放可用的大型語言模型已能在短暫對話中無縫替代真人,且對話者無法察覺。這意味著:

  1. 工作自動化:這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
  2. 社交互動替代:從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動,AI都可能成為無法察覺的替代品。
  3. 「假人」問題:如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果,包括人們可能花更多時間與這些人類互動的模擬品相處。
  4. 認知邊界模糊化:隨著機器越來越像人類,我們對於什麼使我們獨特的認識可能會改變,人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點,而是開始。這提醒我們,"智能"是複雜且多方面的,沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估,補充了傳統的靜態基準測試。正如研究者Brian Christian所言,機器通過圖靈測試可能標誌著一個新時代的開始,在這個時代,我們人類將需要重新思考什麼使我們真正成為人類,以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674,請訂閱本電子報。

Read more

OpenAI CEO:AI 神性、員工離奇死亡以及馬斯克

OpenAI CEO:AI 神性、員工離奇死亡以及馬斯克

人工智慧是否具有生命?這個問題在大型語言模型如 ChatGPT 問世後,反覆縈繞在許多人心中。它能推理、產生未經程式設定的結果,甚至看似擁有創造力。然而,OpenAI 的執行長山姆・阿特曼(Sam Altman)對此提出清晰的見解。他認為,這些系統並不具備生命。 「它們不會主動做任何事,除非你提出要求。」阿特曼說明,這些模型缺乏自主性或內在動機,只是被動地等待指令。他認為,使用者與之互動越久,那種看似生命的幻覺就越可能消散。儘管如此,它們作為工具的強大能力無庸置疑,展現出近似智慧的表現。 幻覺、謊言與數學機率 當人工智慧提供錯誤資訊時,究竟是產生「幻覺」還是蓄意「說謊」?阿特曼解釋,這兩者之間存在根本差異。他以一個早期模型的例子說明:若使用者提問「塔克・卡爾森總統是哪一年出生?」模型可能會編造一個年份,而非指出此人從未擔任總統。 這並非出於欺騙的意圖,而是一個基於訓練資料的數學機率問題。「因為在訓練過程中,直接否定使用者的前提,並不是最可能出現的回應。」模型會假設使用者的提問基於事實,然後在其龐大的資料庫中,

By Fox Hsiao
Palantir CEO Alex Karp :不用戰爭也能擊敗中國的「太極戰略」,你看懂了嗎?

Palantir CEO Alex Karp :不用戰爭也能擊敗中國的「太極戰略」,你看懂了嗎?

軟體公司 Palantir 執行長亞歷克斯·卡普(Alex Karp)是一位同時擁有忠實支持者與激烈抗議者的科技領袖。他的公開談話,不僅僅是關於技術或商業,更深刻地反映一種獨特的世界觀,一種關於建立、競爭與西方價值體系的哲學。在這場訪談中,卡普對環繞著他與公司的各種爭議,提出一套完整且充滿挑戰性的論述。 面對為何有人支持、有人反對的提問,卡普將其支持者描繪為「實踐者」(builders)。他認為,這群人懂得欣賞成果,他們衡量一項成就的標準,是基於其是否能超越外界普遍預期的懷疑與折扣。卡普直言:「實踐者們看見那些極具天賦的人,會對所有言論打上折扣,並根據超越這個折扣率的表現來衡量成就。」 Palantir 的發展歷程充滿反直覺的挑戰,從商業模式到公開形象,始終不被看好,但最終以卓越的成果贏得這群人的信賴。 另一方面,他將抗議者歸因於一種由學術機構灌輸的「失敗者崇高論」。他認為,許多抗議者深信自己無法進入科技的核心圈,因而轉向一種假設失敗者更高尚的哲學模型。卡普批判道:「當你認為自己處於失敗的那一方,你就會假設道德不可能站在你的對立面。」他認為,這種思維源於部分學術機構,這些機構將美

By Fox Hsiao
馬斯克最新訪談:兩萬鎂機器人、AI 超越人類、30年移民火星、衛星直連手機服務

馬斯克最新訪談:兩萬鎂機器人、AI 超越人類、30年移民火星、衛星直連手機服務

在 2025 ALL-IN 訪談中,伊隆・馬斯克分享他對旗下數個野心勃勃計畫的最新進展與未來藍圖,從特斯拉(Tesla)的人形機器人、xAI 的通用人工智慧,到太空探索公司 SpaceX 的星艦與星鏈計畫,勾勒出一幅以科技突破確保人類文明永續發展的宏偉願景。 Optimus:定義未來的勞動力 Musk 堅信,Optimus 人形機器人將是人類的巔峰之作,並將其形容為人類歷史上最偉大的產品。目前,開發團隊正在進行第三版設計的定稿工作。他分析,要成功打造一款能普及的通用型人形機器人,必須克服三大挑戰:擁有與人類相仿的靈巧雙手、一個能理解並與現實世界互動的人工智慧心智,以及大規模生產的能力。 在這些挑戰中,又以手部的設計最為艱鉅。人手經過長時間演化,本身就是一台極度精密的儀器,能執行各種複雜任務。他強調,要創造一個通用的人形機器人,就必須解決手部的問題。 另一個重大障礙是供應鏈的匱乏。Musk 表示,由於現今市場根本不存在適用於人形機器人的關鍵零組件,團隊必須從頭設計與製造。他無奈地說,這些關鍵零件根本買不到,因為它們在市面上並不存在。 之所以堅持採用人形設計,背後有其務實的考量

By Fox Hsiao
哈佛證實:AI正在扼殺新鮮人的第一份工作!6200萬筆數據揭露的殘酷真相

哈佛證實:AI正在扼殺新鮮人的第一份工作!6200萬筆數據揭露的殘酷真相

生成式人工智慧(Generative AI)的浪潮正席捲全球,其對勞動市場的衝擊成為各界關注的焦點。當前的討論多半圍繞在工作機會的增減與技能需求的轉變,然而,一份來自哈佛大學的最新研究,透過分析大規模的美國履歷與職缺數據,揭示一個更細微卻極其關鍵的趨勢:生成式AI的導入,可能正在不成比例地影響資淺員工的就業機會,形成一種「偏重資歷的技術變革」(seniority-biased technological change)。 這份名為《生成式AI作為偏重資歷的技術變革》的初步研究報告,由研究者Seyed M. Hosseini與Guy Lichtinger共同撰寫。他們檢視自2015年至2025年間,涵蓋近6200萬名工作者、分屬28萬5000家美國企業的履歷資料,以及超過2.45億筆的職缺公告,試圖描繪出AI技術擴散下,企業內部人力結構的真實變化。 數據揭示的關鍵轉折點 研究的核心發現,在於企業導入AI前後,不同資歷員工的僱用趨勢出現顯著分歧。過往從2015年到2022年中期,無論是資深或資淺員工,其就業增長率大致維持同步。然而,一個明確的轉折點出現在2023年第一季,這恰好是生成

By Fox Hsiao