Helix 讓 Figure-2 加速現實世界的物流


2025年2月26日 Figure 發布新報告“Helix Accelerating Real-World Logistics”。
Figure 任務的關鍵是將人形機器人引入勞動力隊伍。在此 Figure 機器人介紹一種新的實際應用:物流包裹處理和分類。這項任務需要人類級別的速度、精度和適應性,突破從像素-到-動作學習操作的界限。Helix,是 Figure 內部設計的視覺-語言-動作 (VLA) 模型,它將感知、語言理解和學習控制統一起來。本文重點介紹 Helix 的系統 1 (S1)(低級視覺運動控制策略)所做的一系列普通改進,同時迭代一個具有挑戰性的新商業用例:物流包裹
1)隱立體視覺 - Helix 系統 1 現在具有豐富的 3D 理解能力,可實現更精確的深度感知運動。
2)多尺度視覺表示 - 較低級別的策略可捕獲細粒度的細節,同時保留場景級別的理解以實現更準確的操作。
3)學習視覺本體感受——每個 Figure 機器人現在都可以自我標定,從而實現跨機器人無縫遷移。
4)運動模式——使用簡單的測試-時間加速技術,Helix 實現比演示者更快的執行速度,同時保持較高的成功率和靈活性。

本文還探討此特定用例的數據質量和數量之間的權衡,并表明僅 8 小時策劃的演示數據就可以產生靈巧靈活的策略。
用例
包裹處理和分類是物流中的一項基本操作。這通常涉及將包裹從一條傳送帶轉移到另一條傳送帶,同時還要確保運輸標簽的方向正確以便掃描。這項任務帶來了幾個關鍵挑戰:包裹可能具有各種各樣的尺寸、形狀、重量和剛度——從剛性盒子到可變形的袋子,這使得在模擬中復制變得困難。系統必須確定抓取移動物體和重定位每個包裹露出標簽的最佳時刻和方法。此外,它需要在連續移動的傳送帶上跟蹤大量包裹的動態流動并保持高吞吐量。由于環境永遠無法完全預測,系統必須能夠自我糾正。應對這些挑戰不僅是 Figure 業務的一項關鍵應用,它還為 Helix System 1 帶來通用的新改進,現在所有其他用例都從中受益。


Helix 視覺運動策略 (系統 1) 的架構改進
視覺表征
之前的系統 1 依賴于單目視覺輸入,而新系統 1 現在利用立體視覺主干和多尺度特征提取網絡來捕捉豐富的空間層次結構。不再從每個攝像頭獨立輸入圖像特征token,而是將兩個攝像頭的特征合并到多尺度立體網絡中,然后再進行token化,從而保持輸入到交叉注意Transformer的視覺 tokens 總數不變,并避免計算開銷。多尺度特征使系統能夠解釋精細細節以及更廣泛的上下文線索,共同促進視覺控制的可靠性。

跨機器人遷移
在許多機器人上部署單一策略,需要解決由于單個機器人硬件的細微差異而導致的觀察和行動空間分布變化。這些變化包括傳感器標定差異(影響輸入觀察)和關節響應特性(影響行動執行),如果不進行適當補償,可能會影響策略性能。特別是在高維整個上身行動空間的情況下,傳統的手動機器人標定無法擴展到機器人群。相反,訓練視覺本體感受模型,以完全根據每個機器人的機載視覺輸入來估計末端執行器的 6D 姿勢。這種在線“自我標定”允許強大的跨機器人策略遷移,同時最大限度地減少停機時間。

數據管理
在數據方面,特別注意過濾人類演示,排除速度較慢、遺漏或失敗的演示。但是,在促使糾正的失敗被認為是由于環境隨機性造成而不是操作員錯誤時,故意保留那些自然地包含糾正行為的演示。與遙操作員密切合作以改進和統一操作策略,這也帶來了顯著的改進。
推理-時間操作加速
系統需要接近并最終超越人類操作速度。應用一種簡單但有效的測試-時間技術,可以產生比演示者更快的學習行為:插入策略動作塊輸出(稱之為“運動模式”)。 S1 策略輸出動作“塊”,代表 200hz 的一系列機器人動作。在實踐中,可以例如通過將 [T x action_dim] 的動作塊(代表 T 毫秒軌跡)線性重采樣為更短的 [0.8 * T x action_dim] 軌跡,然后以原始的 200 Hz 控制速率執行更短的塊,實現 20% 的測試時間加速,而無需對訓練過程進行任何修改。
結果與討論
用歸一化有效吞吐量* T_eff 來測量系統的性能,它表示與訓練所用的演示數據相比,處理包的速度有多快。這考慮到必要時重置系統所花費的任何時間。例如,T_eff > 1.1 表示操作速度比為訓練收集的專家軌跡快 10%。
立體視覺的重要性
如圖 (a) 顯示添加多尺度特征提取器以及立體視覺輸入對系統 T_eff 的影響。多尺度特征提取和隱式立體視覺輸入都顯著提高系統性能。特別值得注意的是,添加立體視覺后,對各種包裹尺寸的魯棒性得到提高:如圖 (a) 所示,立體視覺模型的吞吐量比非立體視覺基線提高 60%。

此外,配備立體視覺的 S1 可以泛化到系統從未訓練過的平坦信封。


質量重于數量
對于單一用例,數據質量和一致性比數據數量更重要。上面給出的直方圖 (b) 顯示,使用精選的高質量演示訓練的模型盡管使用的數據少 1/3,但吞吐量提高 40%。
運動模式
通過線性重采樣(“運動模式”)加速策略執行的效果令人驚訝,最高可提高 50%。這可能是由于動作輸出塊的高時間分辨率(200Hz)所致。然而,當速度超過 50% 時,有效吞吐量開始大幅下降,因為動作變得太不精確,系統需要頻繁重置。下圖顯示,速度提高 50% 后,與訓練的專家軌跡相比,該策略實現更快的目標處理速度(T_eff > 1)。

跨機器人遷移
最后,通過利用學習標定和視覺本體感受模塊,能夠將最初在單個機器人數據上訓練的相同策略應用于多個其他機器人。盡管傳感器標定和硬件差異很小,但系統在所有平臺上都保持相當的操縱性能水平。這種一致性強調學習標定在緩解協變量漂移方面的有效性,有效地減少繁瑣的機器人重標定需求,并使大規模部署更加實用。
結論
本文展示如何將高質量數據集與立體多尺度視覺、在線標定和測試-時間加速等架構改進相結合,在現實世界的物流分類場景中實現比演示者更快的靈巧機器人操作——所有這些都在使用相對適量演示數據的情況下完成。結果突出將端到端視覺運動策略擴展到速度和精度至關重要的復雜工業應用上的潛力。
END
轉載自CSDN-三谷秋水

