Figure 機器人「快思慢想」的一小時物流處理影片

Figure 機器人「快思慢想」的一小時物流處理影片

新創公司 Figure 推出的 Helix 模型,正將人形機器人的能力推向前所未有的高度,以下是他們推出的一小時影片,我覺得這很像是某種的 1 小時 ASMR 版影片 XDDD

Figure 將 Helix 定位為一種通用的「視覺-語言-行動」(Vision-Language-Action, VLA) 模型。它革新了機器人的感知、語言理解和運動控制方式,讓機器人能克服許多過去難以解決的挑戰。Helix 的出現,標誌著人形機器人在多個領域實現了重要的「第一次」突破:

  • 控制全身、動作靈巧: Helix 是第一個能高速、連續控制整個人形機器人上半身 (包括手腕、軀幹、頭部、甚至獨立的手指) 的 VLA 模型。機器人不再只是僵硬的執行者,而是能做出更自然、細膩的動作。
  • 聽懂人話,什麼都能撿: 配備 Helix 的 Figure 機器人,現在只要透過簡單的自然語言指令,就能撿起幾乎任何小型家庭物品。即使是數千種從未在訓練中見過的陌生物件,它也能理解指令並成功抓取。
  • 不再單打獨鬥,學會合作: Helix 也是第一個能同時控制兩台機器人協同工作的 VLA 模型。兩台機器人能理解共同目標,分工合作,即使處理的是它們從未見過的新物品,也能透過語言指令完成複雜的協作任務。
  • 一套模型搞定一切: Helix 最驚人之處在於,它使用單一套神經網路權重,就能學習並執行所有行為——從撿放物品、使用抽屜冰箱,到跨機器人互動,甚至應對多變的物流環境。無須針對特定任務額外微調,大大提高了效率和通用性。
  • 硬體門檻降低,準備好商用: Helix 是第一個能在機器人本體搭載的嵌入式、低功耗顯示卡 (GPU) 上完整運行的 VLA 模型。這代表它在硬體需求上更親民,具備立即部署到實際商業應用的條件。

為何機器人難走出工廠,走入家庭?

過去,機器人主要活躍在嚴格控制的工業流水線,環境單純、任務重複,可靠性極高。但像家這樣充滿未知與變動的環境,卻是傳統機器人的噩夢。家裡有無數種物品,形狀、尺寸、材質各異,擺放位置隨機,光是要辨識和抓取就充滿挑戰。要讓機器人學會在這種環境中幫忙,傳統的方法——耗時費力的手動編程或需要上千次的人類示範——根本無法擴展應用到如此龐雜的任務種類。

Figure 認為,人工智慧領域在理解世界方面已經取得了巨大進步,特別是大型語言模型和視覺語言模型。這些模型從海量資料中學到了豐富的常識。如果能將這些「智慧」有效地轉化為機器人的「行動」能力,就能突破機器人泛化能力的瓶頸。Helix 的核心,正是要建立一套系統,能將高層次的語言指令和視覺理解,轉化為機器人精準細膩的動作。

Helix 的「慢思考」與「快反應」大腦架構 (System 1, System 2)

Helix 的設計非常巧妙,它不是一個單一模型包辦所有事情,而是採用了類似人類大腦的「System 1, System 2」分工架構:

  • 系統二 (S2): 這是機器人的「高層次大腦」,基於一個大型的視覺語言模型 (70 億參數)。它負責「慢思考」,接收機器人看到的影像和你的語言指令 (頻率約 7-9 Hz)。S2 的任務是理解整個場景的語義、判斷你的意圖、並規劃高層次的行動目標。它能辨識不同物品、理解抽象概念 (例如「甜點類物品」),並將這些理解轉化為一個緊湊的「潛在向量」,傳遞給負責執行動作的 S1。
  • 系統一 (S1): 這是機器人的「低層次控制器」,一個較小的 Transformer 模型 (8000 萬參數)。它負責「快反應」,以高達 200 Hz 的頻率運行。S1 接收 S2 傳來的高層次意圖,結合當下的即時視覺和自身狀態感知,將其轉化為控制機器人全身關節的精準、連續動作指令。S1 能根據環境的細微變化,即時調整動作,確保流暢和穩定。

這種 S1/S2 分離的設計,讓每個系統都能在其最適合的速度運行:S2 可以花一點時間「想清楚」指令和場景,而 S1 則能以極快的速度「反應」並執行動作,確保了機器人既有高層次的理解能力,又不失即時控制的精準和穩定性。

將理想落地:物流場域的實證與能力再進化

Figure 不僅提出了 Helix 的架構,更將其部署到真實的物流環境進行測試,並在短短三個月內取得了顯著的進步。這也證明了 Helix 這種基於學習的方法,能快速將能力從訓練階段轉換到實際應用。

在這三個月的物流實測中,Helix 的表現大幅提升:

  • 包裹處理能力進化: 它不再只能處理硬紙箱,現在連難以抓取的易變形塑膠袋、扁平信封等都能穩穩處理。針對不同材質和形狀,它能即時調整抓取策略 (例如輕拍壓平軟包裝以利掃描)。
  • 速度與效率雙贏: 即使處理更複雜多樣的包裹,速度反而更快了!平均處理一個包裹的時間從約 5 秒縮短到 4.05 秒,效率提升約 20%,而且準確率更高。
  • 條碼掃描成功率飆高: 透過更強的視覺感知和控制,將包裹翻轉至條碼朝下以便掃描的成功率,從約 70% 大幅提升至 95%。
  • 學會應變的「小聰明」: 展現出從人類示範中學到的適應性行為,例如輕輕拍打軟包裝表面壓平皺褶,以確保條碼清晰。

能力飛躍的幕後推手:資料規模與模型精煉

這些在物流場域看到的具體進步,其原因正是 Helix 整體 VLA 框架的優化,特別是:

  1. 高品質訓練資料的擴充: 研究顯示,增加人類示範的訓練資料量,能直接提升 Helix 的處理速度和準確率。
  2. 模型架構的精煉: 在原有的 S1/S2 架構基礎上,Figure 為 Helix 導入了關鍵的感測與記憶模組,讓 S1 控制器更強大:
    • 視覺記憶 (Vision Memory): 讓機器人能記住過去幾幀影像的資訊,幫助它建立對環境的「時間感」。它能記得包裹的哪一面看過、標籤曾在哪裡出現,減少重複動作,並規劃更複雜的多步驟操作 (例如多次微調包裹角度來找條碼),這對條碼成功率的提升功不可沒。
    • 狀態歷史 (State History): 將機器人自身過去的運動狀態納入考量,讓 S1 在高速控制時能保持動作的連貫性,對外在干擾反應更快,是提升處理速度的關鍵之一。
    • 力回饋 (Force Feedback): 整合了觸覺感知。機器人能「感覺」到接觸物體的力道,並據此調整抓取或推動的力道和時機。這讓操作更精準穩定,能應對包裹重量、軟硬等差異。

這些精煉後的模組,讓 Helix 的 S1 控制器能更有效地利用 S2 傳來的高層次理解,並在實際操作中展現出驚人的靈活和穩定性。

通用模型的無限可能:從分揀到遞物

Helix 單一套模型的設計,也展現了其極高的通用性。除了核心的物流分揀任務,Figure 發現只要加入少量的示範影片,機器人就能學會新的互動模式。例如,透過觀看人類將包裹遞給機器人的示範,Helix 就能學會將伸出的手視為遞交物品的訊號,做出遞出包裹的反應,而非將其放在輸送帶上。這種自然、情境式的互動,證明了 Helix 的 VLA 模型能輕易擴展到各種不同的應用情境。

Figure 的 Helix 模型,透過創新的 S1/S2 架構、海量高品質訓練資料的累積,以及關鍵感知與記憶模組的整合,成功打造出第一個能聽懂人話、控制全身、進行複雜協作,並在真實、多變環境中展現驚人操作能力的 VLA 人形機器人模型。它在物流場域的快速進步,更是最好的實證。

Helix 不僅提高了人形機器人的靈活性和可靠性,更大大降低了部署和擴展新能力的門檻。這代表著人形機器人正加速從實驗室和工廠,邁向我們的日常生活,未來在家庭、服務業,甚至是更廣泛的未知領域,都有可能看到它們的身影。Figure 相信這只是個開始,期待未來能將 Helix 的能力和規模繼續擴大,真正實現人形機器人普及應用的願景。

Read more

OpenAI CEO:AI 神性、員工離奇死亡以及馬斯克

OpenAI CEO:AI 神性、員工離奇死亡以及馬斯克

人工智慧是否具有生命?這個問題在大型語言模型如 ChatGPT 問世後,反覆縈繞在許多人心中。它能推理、產生未經程式設定的結果,甚至看似擁有創造力。然而,OpenAI 的執行長山姆・阿特曼(Sam Altman)對此提出清晰的見解。他認為,這些系統並不具備生命。 「它們不會主動做任何事,除非你提出要求。」阿特曼說明,這些模型缺乏自主性或內在動機,只是被動地等待指令。他認為,使用者與之互動越久,那種看似生命的幻覺就越可能消散。儘管如此,它們作為工具的強大能力無庸置疑,展現出近似智慧的表現。 幻覺、謊言與數學機率 當人工智慧提供錯誤資訊時,究竟是產生「幻覺」還是蓄意「說謊」?阿特曼解釋,這兩者之間存在根本差異。他以一個早期模型的例子說明:若使用者提問「塔克・卡爾森總統是哪一年出生?」模型可能會編造一個年份,而非指出此人從未擔任總統。 這並非出於欺騙的意圖,而是一個基於訓練資料的數學機率問題。「因為在訓練過程中,直接否定使用者的前提,並不是最可能出現的回應。」模型會假設使用者的提問基於事實,然後在其龐大的資料庫中,

By Fox Hsiao
Palantir CEO Alex Karp :不用戰爭也能擊敗中國的「太極戰略」,你看懂了嗎?

Palantir CEO Alex Karp :不用戰爭也能擊敗中國的「太極戰略」,你看懂了嗎?

軟體公司 Palantir 執行長亞歷克斯·卡普(Alex Karp)是一位同時擁有忠實支持者與激烈抗議者的科技領袖。他的公開談話,不僅僅是關於技術或商業,更深刻地反映一種獨特的世界觀,一種關於建立、競爭與西方價值體系的哲學。在這場訪談中,卡普對環繞著他與公司的各種爭議,提出一套完整且充滿挑戰性的論述。 面對為何有人支持、有人反對的提問,卡普將其支持者描繪為「實踐者」(builders)。他認為,這群人懂得欣賞成果,他們衡量一項成就的標準,是基於其是否能超越外界普遍預期的懷疑與折扣。卡普直言:「實踐者們看見那些極具天賦的人,會對所有言論打上折扣,並根據超越這個折扣率的表現來衡量成就。」 Palantir 的發展歷程充滿反直覺的挑戰,從商業模式到公開形象,始終不被看好,但最終以卓越的成果贏得這群人的信賴。 另一方面,他將抗議者歸因於一種由學術機構灌輸的「失敗者崇高論」。他認為,許多抗議者深信自己無法進入科技的核心圈,因而轉向一種假設失敗者更高尚的哲學模型。卡普批判道:「當你認為自己處於失敗的那一方,你就會假設道德不可能站在你的對立面。」他認為,這種思維源於部分學術機構,這些機構將美

By Fox Hsiao
馬斯克最新訪談:兩萬鎂機器人、AI 超越人類、30年移民火星、衛星直連手機服務

馬斯克最新訪談:兩萬鎂機器人、AI 超越人類、30年移民火星、衛星直連手機服務

在 2025 ALL-IN 訪談中,伊隆・馬斯克分享他對旗下數個野心勃勃計畫的最新進展與未來藍圖,從特斯拉(Tesla)的人形機器人、xAI 的通用人工智慧,到太空探索公司 SpaceX 的星艦與星鏈計畫,勾勒出一幅以科技突破確保人類文明永續發展的宏偉願景。 Optimus:定義未來的勞動力 Musk 堅信,Optimus 人形機器人將是人類的巔峰之作,並將其形容為人類歷史上最偉大的產品。目前,開發團隊正在進行第三版設計的定稿工作。他分析,要成功打造一款能普及的通用型人形機器人,必須克服三大挑戰:擁有與人類相仿的靈巧雙手、一個能理解並與現實世界互動的人工智慧心智,以及大規模生產的能力。 在這些挑戰中,又以手部的設計最為艱鉅。人手經過長時間演化,本身就是一台極度精密的儀器,能執行各種複雜任務。他強調,要創造一個通用的人形機器人,就必須解決手部的問題。 另一個重大障礙是供應鏈的匱乏。Musk 表示,由於現今市場根本不存在適用於人形機器人的關鍵零組件,團隊必須從頭設計與製造。他無奈地說,這些關鍵零件根本買不到,因為它們在市面上並不存在。 之所以堅持採用人形設計,背後有其務實的考量

By Fox Hsiao
哈佛證實:AI正在扼殺新鮮人的第一份工作!6200萬筆數據揭露的殘酷真相

哈佛證實:AI正在扼殺新鮮人的第一份工作!6200萬筆數據揭露的殘酷真相

生成式人工智慧(Generative AI)的浪潮正席捲全球,其對勞動市場的衝擊成為各界關注的焦點。當前的討論多半圍繞在工作機會的增減與技能需求的轉變,然而,一份來自哈佛大學的最新研究,透過分析大規模的美國履歷與職缺數據,揭示一個更細微卻極其關鍵的趨勢:生成式AI的導入,可能正在不成比例地影響資淺員工的就業機會,形成一種「偏重資歷的技術變革」(seniority-biased technological change)。 這份名為《生成式AI作為偏重資歷的技術變革》的初步研究報告,由研究者Seyed M. Hosseini與Guy Lichtinger共同撰寫。他們檢視自2015年至2025年間,涵蓋近6200萬名工作者、分屬28萬5000家美國企業的履歷資料,以及超過2.45億筆的職缺公告,試圖描繪出AI技術擴散下,企業內部人力結構的真實變化。 數據揭示的關鍵轉折點 研究的核心發現,在於企業導入AI前後,不同資歷員工的僱用趨勢出現顯著分歧。過往從2015年到2022年中期,無論是資深或資淺員工,其就業增長率大致維持同步。然而,一個明確的轉折點出現在2023年第一季,這恰好是生成

By Fox Hsiao