圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?
The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。

75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。

研究結果令人驚訝:

  1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。
  2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。
  3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21%和23%的成功率。

研究結果表明,最先進的LLM在適當提示詞下,不僅能夠以假亂真,甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破,主要根據以下幾點:

  1. 勝率超過50%:根據論文數據,GPT-4.5(使用個性化提示詞)被判斷為人類的比率高達73%,顯著高於隨機猜測的50%。
  2. 超越真人表現:最關鍵的是,GPT-4.5不僅僅是"不被識別為AI",它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時,更傾向於認為AI是人類。
  3. 統計顯著性:研究在兩個獨立人群(大學生和Prolific平台用戶)進行測試,結果在統計上均顯著,表明這不是偶然現象。
  4. 對照組驗證:研究使用ELIZA作為操控檢驗,證明測試設計能夠有效區分弱AI和人類(ELIZA只有23%的成功率)。
  5. 嚴格的測試環境:研究採用標準的三方圖靈測試(而非簡化版本),每個數據點代表AI和人類的直接比較,這使得結果更具說服力。

根據上述證據,研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據",標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷?

研究分析了參與者用來識別人類的策略和理由:

  • 大多數參與者(61%)傾向於進行閒聊,詢問對方的日常活動或個人資訊
  • 50%的參與者探測對方的社交和情感特質,例如意見、情緒和幽默感
  • 僅有12%的參與者詢問知識或推理問題(如數學問題)

最有效的識別策略包括:說一些奇怪的話,觀察對方反應;或嘗試「越獄」提示(要求AI忽略先前指令)。然而,詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示,當代開放可用的大型語言模型已能在短暫對話中無縫替代真人,且對話者無法察覺。這意味著:

  1. 工作自動化:這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
  2. 社交互動替代:從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動,AI都可能成為無法察覺的替代品。
  3. 「假人」問題:如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果,包括人們可能花更多時間與這些人類互動的模擬品相處。
  4. 認知邊界模糊化:隨著機器越來越像人類,我們對於什麼使我們獨特的認識可能會改變,人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點,而是開始。這提醒我們,"智能"是複雜且多方面的,沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估,補充了傳統的靜態基準測試。正如研究者Brian Christian所言,機器通過圖靈測試可能標誌著一個新時代的開始,在這個時代,我們人類將需要重新思考什麼使我們真正成為人類,以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674,請訂閱本電子報。

Read more

Kyle Vogt 創辦三家十億美元公司,這次他要用機器人終結你最討厭的家事

Kyle Vogt 創辦三家十億美元公司,這次他要用機器人終結你最討厭的家事

Kyle Vogt,這位成功創辦 Twitch 與 Cruise、兩家市值超過十億美元公司的連續創業家,如今將目光投向一個更具挑戰性、也更貼近日常的領域:家用機器人。他的新創事業 The Bot Company,試圖解答一個自現代科技萌芽以來,便縈繞在人們心中的夢想:我們何時能擁有一位真正的家務幫手? 這場深度對談,不僅揭示 The Bot Company 的產品哲學與商業策略,更是一位歷經多次創業浪潮洗禮的先行者,對於技術典範、團隊建構,乃至於創業初衷的深刻反思。 為何是現在?AI 賦予機器人全新靈魂 長久以來,家用機器人始終是科技界的聖杯,看似觸手可及,卻又遙不可及。從科幻小說到學術實驗室,無數原型機來來去去,但沒有一個能真正走入家庭,成為不可或缺的一員。Vogt 指出,關鍵的瓶頸在於,傳統機器人被設計來執行精準、重複的任務,它們在結構化的工廠環境中表現優異,但面對家庭這個充滿變數的場域,便顯得捉襟見肘。 家庭環境的複雜度,堪稱機器人版的「極限體能王」障礙賽。

By Fox Hsiao
川普 AI 霸權三本柱:法規鬆綁、能源自主、全球輸出,一柱都不能少!

川普 AI 霸權三本柱:法規鬆綁、能源自主、全球輸出,一柱都不能少!

川普開宗明義指出,人工智慧是本世紀最重要的技術革命,其影響力將遍及從醫療、製造到國防的每個領域。他將AI的發展視為一場攸關國家未來的激烈競賽,並斷言美國不僅是這場競賽的發起者,也必須成為最終的勝利者。他強調,不允許任何國家,特別是潛在的競爭對手,透過掌握AI技術來制定威脅美國價值觀與利益的全球規則。 為了實現「美國優先」的AI霸權,川普政府的政策將圍繞一個中心思想展開:為美國的創新者掃除一切障礙,並提供其所需的一切資源。這不僅是一句口號,更體現於他隨後簽署的一系列具體行政命令。 政策支柱一:鬆綁法規,釋放創新動能 川普論述中,最關鍵的一項政策是徹底改革美國的監管環境。他認為,當前由各州獨立制定法規的模式,將成為AI產業發展的致命枷鎖。他直言,若讓五十個州各自為政,那麼最嚴格、最保守的州法規將會成為全國的實質標準,迫使企業必須遵循最低的共同標準,從而扼殺創新與競爭力。他以過去廢除加州汽車排放標準為例,主張一個統一、理性的聯邦標準,才能避免企業陷入無盡的訴訟與法規泥沼。 他提出,政府的角色並非透過繁瑣的「紅頭繩」(red tape)來束縛產業,而是要提供明確的「綠燈」,鼓勵企業大

By Fox Hsiao
黃仁勳 : 川普總統是美國會贏得 AI 競賽的獨一無二優勢

黃仁勳 : 川普總統是美國會贏得 AI 競賽的獨一無二優勢

AI:創造就業的引擎與技能的平衡器 對於當前社會普遍擔憂 AI 將大規模取代人類工作,黃仁勳提出一個反直覺但基於企業實務的觀點。他認為,AI 的核心價值在於提升生產力。當一家公司擁有源源不絕的創新點子,AI 便成為實現這些點子的強大工具,讓企業能以前所未有的速度開發新產品、拓展新市場,進而帶動成長、創造出更多新的就業機會。他以輝達自身為例,無論是軟體工程師或晶片設計師,所有員工都已深度整合 AI 進入工作流程,結果是公司比以往任何時候都更加繁忙,因為過去許多難以實現的構想,如今都具備可行性。 更重要的是,黃仁勳將 AI 視為史上最強大的「技術平等化力量」。過去,程式設計、藝術創作或專業寫作,均設有相當高的技能門檻。如今,透過與 AI 對話,人人都能指揮電腦完成複雜任務。未來的程式語言,將不再是 C++ 或 Python,而是人類的自然語言。這意味著技術的鴻溝正被填平,每個人都有潛力成為程式設計師、藝術家或作家。 因此,真正的挑戰並非 AI

By Fox Hsiao
烏克蘭副總理闡述:AI、數據與去中心化如何成為他們扭轉戰局的關鍵

烏克蘭副總理闡述:AI、數據與去中心化如何成為他們扭轉戰局的關鍵

烏克蘭創新發展、教育、科學與技術副總理兼數位轉型部長米哈伊洛・費多羅夫(Mykhailo Fedorov)與其國防科技顧問喬治・茨哈卡亞(Georgii Tskhakaia),透過一場結合預錄影片與現場解說的深度訪談,揭示烏克蘭如何在資源極度不對等的戰爭中,憑藉科技創新、敏捷思維與數據驅動的決策,開創全新的戰爭型態。這場對話不僅是烏克蘭的戰時報告,更是一份關於未來國防科技發展的深刻洞見。 以不對稱戰略回應資源劣勢 訪談開宗明義指出,自俄羅斯全面入侵以來,烏克蘭的面貌產生根本性轉變。面對在傳統軍備、兵力與資源上均佔據絕對優勢的對手,烏克蘭深知若依循傳統的作戰思維,幾乎沒有獲勝的可能。這種現實壓力迫使烏克蘭必須尋找另一條路徑,一條更敏捷、更具成本效益且更依賴技術的道路。 顧問茨哈卡亞提出多個案例,具體說明這種「以小博大」的不對稱作戰思維如何實踐。例如,當缺乏足夠的反坦克飛彈(如標槍飛彈)時,烏克蘭工程師開發出成本僅數百美元的第一人稱視角(FPV)自殺式無人機。這些廉價的無人機卻能有效摧毀價值數百萬美元的坦克與重型裝甲,在戰線上造成巨大衝擊。 同樣的邏輯也應用在其他領域。為彌補火砲彈

By Fox Hsiao