圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?
The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。

75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。

研究結果令人驚訝:

  1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。
  2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。
  3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21%和23%的成功率。

研究結果表明,最先進的LLM在適當提示詞下,不僅能夠以假亂真,甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破,主要根據以下幾點:

  1. 勝率超過50%:根據論文數據,GPT-4.5(使用個性化提示詞)被判斷為人類的比率高達73%,顯著高於隨機猜測的50%。
  2. 超越真人表現:最關鍵的是,GPT-4.5不僅僅是"不被識別為AI",它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時,更傾向於認為AI是人類。
  3. 統計顯著性:研究在兩個獨立人群(大學生和Prolific平台用戶)進行測試,結果在統計上均顯著,表明這不是偶然現象。
  4. 對照組驗證:研究使用ELIZA作為操控檢驗,證明測試設計能夠有效區分弱AI和人類(ELIZA只有23%的成功率)。
  5. 嚴格的測試環境:研究採用標準的三方圖靈測試(而非簡化版本),每個數據點代表AI和人類的直接比較,這使得結果更具說服力。

根據上述證據,研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據",標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷?

研究分析了參與者用來識別人類的策略和理由:

  • 大多數參與者(61%)傾向於進行閒聊,詢問對方的日常活動或個人資訊
  • 50%的參與者探測對方的社交和情感特質,例如意見、情緒和幽默感
  • 僅有12%的參與者詢問知識或推理問題(如數學問題)

最有效的識別策略包括:說一些奇怪的話,觀察對方反應;或嘗試「越獄」提示(要求AI忽略先前指令)。然而,詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示,當代開放可用的大型語言模型已能在短暫對話中無縫替代真人,且對話者無法察覺。這意味著:

  1. 工作自動化:這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
  2. 社交互動替代:從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動,AI都可能成為無法察覺的替代品。
  3. 「假人」問題:如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果,包括人們可能花更多時間與這些人類互動的模擬品相處。
  4. 認知邊界模糊化:隨著機器越來越像人類,我們對於什麼使我們獨特的認識可能會改變,人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點,而是開始。這提醒我們,"智能"是複雜且多方面的,沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估,補充了傳統的靜態基準測試。正如研究者Brian Christian所言,機器通過圖靈測試可能標誌著一個新時代的開始,在這個時代,我們人類將需要重新思考什麼使我們真正成為人類,以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674,請訂閱本電子報。

Read more

兩週股價從 31 塊飆漲到 200 塊的 Circle,Coinbase 才是最大獲利者?

兩週股價從 31 塊飆漲到 200 塊的 Circle,Coinbase 才是最大獲利者?

以下內容主要是「硅谷 101 E196|稳定币之战:Circle崛起之路与传统金融入局的新势力角逐 」的內容,推薦所有對穩定幣有興趣的人收聽。 美元穩定幣 USDC 的母公司 Circle 在紐約證交所成功上市,首兩日股價一度飆漲近四倍,市值突破兩百億美元,引發市場高度關注。這場資本盛宴不僅是一家加密企業的成功,更像一枚信號彈,正式宣告全球穩定幣的商業戰爭進入白熱化階段。 這場競賽的參與者,橫跨華爾街傳統金融巨頭、矽谷科技公司,以及加密原生勢力,而美國國會正在推進的《天才法案》(GENIUS Act),則成為左右戰局最關鍵的變數。 本集深入剖析 Circle 的崛起之路、與交易所 Coinbase 複雜的共生關係、主要競爭對手 USDT 的獨特獲利模式,並展望穩定幣在未來全球支付體系中的宏大前景。 一、監管清晰化預期:Circle 上市引爆市場熱情的催化劑 Circle 上市之所以獲得市場狂熱追捧,核心原因在於「預期」。市場普遍預期美國即將通過的《天才法案》,會為穩定幣提供一個清晰的監管框架。過去,

By Fox Hsiao
穩定幣的過去、現在與未來,如何評估穩定幣機會避免賠錢,傳統銀行業的滅絕級事件

穩定幣的過去、現在與未來,如何評估穩定幣機會避免賠錢,傳統銀行業的滅絕級事件

原文 Assume The Position / 原作者 Arthur Hayes 雖然 Circle 的執行長 Jeremy Allaire 不得不聽從他的「老爹金主」Coinbase 執行長 Brian Armstrong 的指示「就位」,但我希望對於那些在公開股票市場交易任何與「穩定幣」相關標的的人來說,這篇文章可以防止當促銷者將狗屎塞入毫無頭緒的賭徒屁股時,你們的括約肌迅速擴張。有了這個前言,我將開始討論穩定幣市場的過去、現在和未來。 在資本市場中,專業加密貨幣交易員有些獨特,因為要生存和發展,需要深入了解資金如何在整個全球法定貨幣銀行體系中流動。股票選擇者或外匯賭徒不需要知道股票和/或貨幣是如何結算和轉帳的。經紀人(必須使用其服務進行交易)會在幕後默默地提供這項服務。 首先,購買你的第一個比特幣並不容易;不清楚什麼是最好和最安全的選擇。對大多數人來說,至少在我 2013 年開始涉足加密貨幣時,第一步是直接將法幣電匯給另一個人,或支付實體現金,從他們那裡購買比特幣。 然後,你會進階到在交易所交易,交易所提供雙向市場,

By Fox Hsiao
加密貨幣金融卡 EtherFi 與 RedotPay 說明與推薦 ,回饋 3% 與出金怎麼選

加密貨幣金融卡 EtherFi 與 RedotPay 說明與推薦 ,回饋 3% 與出金怎麼選

隨著加密貨幣在全球加速普及,使用加密貨幣,尤其是使用穩定幣消費的需求也變得前所未有的迫切。數位資產過去大多數僅限於在交易所交易,或作為投資存放在錢包裡,但如今隨著加密貨幣金融卡的普及,正使得數位資產的使用逐漸走入日常生活。 加密貨幣金融卡可以將比特幣、以太幣或穩定幣等加密貨幣儲值到卡片中,並使用這些資金以美金或者台幣等法定貨幣來支付商品和服務。 與提供信用額度的信用卡不同,加密貨幣金融卡必須使用數位資產預先儲值,在儲值後,它將在每筆交易當下自動轉換為法定貨幣,可以像使用傳統簽帳金融卡一樣使用該卡,無需手動兌換,儲多少用多少。 我怎麼加密貨幣金融卡消費? 其實跟一般的信用卡消費相同,唯一需要注意的是,當你在刷卡的時候會詢問你要利用當地貨幣或者是美金結這筆消費,根據業內人士建議,通常是選擇發卡的幣別,比如說 RedotPay 我們拿到的會是美金卡,所以請用美金計算該筆消費。 * Apple Pay 類的行動支付:大部分的加密貨幣金融卡平台支援 Apple Pay、Google Pay 等,所以可以在實體店頭利用手機感應支付。 * 店內付款:在任何接受實體信用卡的刷卡機上使用

By Fox Hsiao
90億美金獨角獸 Cursor CEO:我們尋找的不是碼農,而是有品味的創造者

90億美金獨角獸 Cursor CEO:我們尋找的不是碼農,而是有品味的創造者

本集 Y Combinator 的掌舵手 Garry Tan 對話的主角,是 AnySphere 的共同創辦人兼執行長 Michael Truell。他所打造的 AI 輔助程式開發平台 Cursor,正掀起一場寧靜卻深刻的革命。成立僅僅 20 個月,年度經常性收入(ARR)便衝破一億美元,公司估值飆升至 90 億美元。 在這場由 Garry Tan 主持的深度訪談中,Truell 揭示的並非僅是商業上的巨大成功,而是一個更為顛覆性的宏大願景:一個「後程式碼時代」的到來,一個程式開發的典範即將被徹底改寫的未來。 Truell 與他在麻省理工學院結識的夥伴們,正大膽地押注一個夢想——將軟體創造這門複雜的工藝,從逐行敲打程式碼的傳統模式,進化到更高維度的「意圖驅動」時代。開發者只需用自然語言描述想法,AI 便能將其轉化為具體的軟體功能。這不僅是效率的提升,更是對創造力的一次解放。

By Fox Hsiao