亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出

預測逆動力學模型 Seer:端到端視覺 - 動作協(xié)同賦能機器人操作,CALVIN 序列長度 4.28 + 真實任務 43% 提升

三谷秋水 2025-03-12

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

2024年12月來自上海AI實驗室、北大和香港中文大學的論文“Predictive Inverse Dynamics Models Are Scalable Learners For Robotic Manipulation”。

目前,在機器人操作中學習可擴展策略的努力主要分為兩類:一類側(cè)重于“動作”,涉及從大量的機器人數(shù)據(jù)中克隆行為;另一類強調(diào)“視覺”,通過使用大規(guī)模視覺數(shù)據(jù)集預訓練表示或生成模型(也稱為世界模型)來增強模型泛化。本文提出一種端到端范式,該范式使用以機器人預測視覺狀態(tài)為條件的逆動力學模型來預測動作,稱為預測逆動力學模型 (PIDM)。通過閉合視覺和動作之間的循環(huán),端到端 PIDM 可以成為更好的可擴展動作學習者。在實踐中,用 Transformers 來處理視覺狀態(tài)和動作,并將模型命名為 Seer。它最初在 DROID 等大規(guī)模機器人數(shù)據(jù)集上進行預訓練,并且可以通過少量微調(diào)數(shù)據(jù)適應真實世界場景。得益于大規(guī)模端到端訓練以及視覺與動作之間的協(xié)同作用,Seer 在模擬和真實世界實驗中的表現(xiàn)均顯著優(yōu)于之前的方法。它在 LIBERO-LONG 基準上實現(xiàn) 13% 的改進,在 CALVIN ABC-D 上實現(xiàn) 21% 的改進,在真實世界任務中實現(xiàn) 43% 的改進。值得注意的是,Seer 在 CALVIN ABC-D 基準上創(chuàng)造不俗成績,平均長度達到 4.28,并且在真實世界場景中對新目標、光照條件和高強度干擾下的環(huán)境,表現(xiàn)出優(yōu)異的泛化能力。

PIDM 和 Seer 如圖所示:(a)從大規(guī)模機器人數(shù)據(jù)進行端到端的簡單行為克隆,或(b)使用解耦的視覺預測和逆動力學模型來設定目標和指導動作, (c)端到端 PIDM,即 Seer 模型。

image.png

給定一個包含各種操作演示的大規(guī)模數(shù)據(jù)集 D_1 = {(l, o_t, s_t, a_t)T_i}N_1 和一個較小的下游數(shù)據(jù)集 D_2 = {(l, o_t, s_t, a_t)T_j}N_2(其中 N_1 >> N_2),目標是通過對 D_1 進行有效的預訓練,然后對 D_2 進行微調(diào),來提高下游任務的性能。每個軌跡 {(l, o_t, s_t, a_t)^T} 提供時間步長 t、語言指令 l、從手-上-眼和基-上-眼獲得的 RGB 圖像 o_t、機器人狀態(tài) s_t 和機器人動作 a_t,其中包括手臂動作 a_arm(6D 姿勢)和夾持器動作 a_gripper(打開或關(guān)閉)。值得注意的是,當前大量的預訓練機器人數(shù)據(jù)可能包含不完整的語言注釋 l 和與任務無關(guān)的動作 a_t,例如環(huán)境中的隨機探索 (Mees,2022)。

然而,由于特定的設計選擇,本文提出的 Seer 可以有效地處理這種情況。

視覺:條件視覺預見。一個關(guān)鍵的見解是,信息豐富的未來狀態(tài)可以指導行動。因此,提出條件視覺預見 f_fore,以有效地預測未來的視覺表現(xiàn)。Seer 將語言指令或機器人狀態(tài)形式的目標 g 與歷史觀察 h_t 作為輸入,并預測時間步驟 t + n 的 RGB 圖像,用 o?_t+n 表示。

歷史觀測值 h_t 包括過去 m 個時間步內(nèi)的 RGB 圖像 o_t?m+1:t 和機器人狀態(tài) s_t?m+1:t。由于 RGB 圖像中包含的信息豐富、數(shù)量眾多且易于獲取,選擇它們作為未來的代表。按照 (He et al., 2022),損失函數(shù) L_fore 計算像素級的均方誤差 (MSE)。

動作:逆動態(tài)預測。給定兩個按時間順序排列的觀測值 o_t 和 o_t+1,逆動態(tài)預測估計中間動作 a?_t。在這里,擴展逆動態(tài) f_inv 以預測給定目標 g、歷史觀測值 h_t 和 o_t+n 的動作序列 a?_t:t+n?1。具體來說,用潛空間中的預測表示 ?o^l_t+n 替換真值 o_t+n。

損失函數(shù) L_inv 包括手臂動作損失 L_arm(平滑L1損失)和夾持器動作損失 L_gripper(二元交叉熵)。

視覺與動作之間的閉環(huán)。Seer 通過訓練有效地將條件視覺預見與逆動力學預測相結(jié)合,從而充分利用機器人數(shù)據(jù)中的視覺和動作信息。具體來說,f_fore 結(jié)合明確的目標 g 和歷史觀察 h_t 來預測未來的 RGB 圖像 o?_t+n。潛表示 ?o^l_t+n(走向 o?_t+n)和 h_t 通過 f_inv 促進動作預測。由于 Seer 的模型設計,所有這些過程都以端到端的方式執(zhí)行。

與單步動作預測相比,預測多步動作可提供時間動作一致性和對空閑動作的魯棒性 (Chi et al., 2023)。在推理過程中,可以丟棄第一步以外的動作,也可以應用時間集成技術(shù)來計算多步動作的加權(quán)平均值。

輸入 token 化器。如圖所示,該模型處理三種類型的輸入:語言、圖像和機器人狀態(tài)。使用不同的編碼器對每種模態(tài)進行相應的token化。對于語言輸入,首先對文本進行token化,然后使用 CLIP 文本編碼器 (Radford,2021) 獲取文本嵌入,隨后使用線性層將其投影到潛在空間中。對于圖像輸入,首先對圖像進行修補并通過預訓練的視覺Transformer (ViT) (He,2022) 生成視覺嵌入。由于 ViT 每幅圖像產(chǎn)生數(shù)百個嵌入,給Transformer主干帶來巨大的計算負擔,并且許多視覺信息與操作任務無關(guān),因此使用感知器重采樣器 (Alayrac,2022) 來提取與任務相關(guān)的視覺特征并減少圖像token的數(shù)量。對于機器人狀態(tài),使用多層感知器 (MLP) 將其編碼為狀態(tài)token。

image.png

多模態(tài)編碼器。模型中的多模態(tài)編碼器基于 GPT-2 風格的Transformer架構(gòu)。在將順序的語言-圖像-狀態(tài)對輸入到Transformer之前,讀出token [INV] 和 [FRS] 附加到每個時間步。這些讀出token關(guān)注來自不同模態(tài)的嵌入,用作條件視覺預見和逆動態(tài)預測的圖像和動作潛變量。為了結(jié)合時間信息,還為每個時間步的token添加可學習的位置嵌入。

[FRS] token旨在促進條件視覺預見,對應于前面提到的 ?o^l_t+n。它關(guān)注語言、歷史圖像和狀態(tài)token。相反,[INV] token根據(jù)預測的視覺預見執(zhí)行逆動態(tài)預測,關(guān)注輸入token,以及至關(guān)重要的預見token [FRS]。Transformer 編碼器中的這種特殊的單向注意掩碼(如上圖所示)帶來兩個好處。首先,這將有助于 [INV] token在多層網(wǎng)絡中深度整合過去和未來的預測信息。其次,這通過潛空間中的融合實現(xiàn)端到端訓練范式。

讀出解碼器。由多模態(tài)編碼器編碼后,由 [INV] 和 [FRS] 讀出 token 生成的動作和圖像潛信息,輸入到讀出解碼器中以預測圖像和動作。動作解碼器利用 MLP 將動作潛信息轉(zhuǎn)換為動作向量。對于圖像解碼,采用視覺 Transformer (ViT) 作為圖像解碼器,遵循 (He et al., 2022)。圖像解碼器將圖像潛信息與掩碼 tokens 一起作為輸入。經(jīng)過 ViT 處理后,每個掩碼 token 對應的輸出,代表圖像的特定部分。

訓練。訓練目標、條件視覺預見和逆動力學預測在預訓練和微調(diào)之間保持一致。值得注意的是,這兩個階段之間存在兩個模型配置的關(guān)鍵差異。首先,在機器人預訓練數(shù)據(jù)集中,缺少語言指令的情況很常見。在這種情況下,在預訓練期間,未來時間步 t + n + 1 的機器人狀態(tài) token 充當目標。[FRS] 將關(guān)注它而不是語言 token,確保 [FRS] 獲取明確的信息。其次,預訓練數(shù)據(jù)可能包括隨機或無意義的行為,例如環(huán)境探索。因此,[INV] 和 [FRS] token 不會關(guān)注先前的圖像和機器人狀態(tài) token,以防止過擬合任何特定行為。

推理。在推理過程中,完整的語言指令 l、機器人狀態(tài) s 和圖像觀察 o 作為輸入提供。[FRS] token 關(guān)注歷史圖像、狀態(tài)和語言指令 token,以執(zhí)行條件視覺預見,預測未來圖像。反過來,[INV] token 關(guān)注輸入 token 和另一個預見 [FRS] token,以執(zhí)行逆動態(tài)預測,輸出動作。

模型。在整個訓練過程中,預訓練的視覺和文本編碼器保持凍結(jié),總共包含 251M 個不可訓練參數(shù)。其余組件完全可訓練。Seer 的標準版擁有 65M 個可訓練參數(shù)。此外,擴大參數(shù)大小并開發(fā) Seer-Large 變型,其中包含 315M 個可訓練參數(shù)。除非另有說明,否則提到的 Seer 是指具有 65M 個可訓練參數(shù)的版本。

模擬實驗如下:

在兩個模擬基準 LIBERO-LONG(Liu,2024)、CALVIN ABC-D(Mees,2022)上進行實驗。目標是回答:1)該方法在具有挑戰(zhàn)性的模擬基準上表現(xiàn)如何?2)隨著下游微調(diào)數(shù)據(jù)量的變化,流水線是否保持一致的有效性?3)Seer 中的訓練目標是否有效?

真實實驗如下:

在六項實際真實世界任務上評估 Seer,其中四項側(cè)重于泛化,兩項側(cè)重于高精度和豐富聯(lián)系。旨在回答:1)Seer 在實際真實世界任務中是否有效?2)預訓練是否在強烈干擾下持續(xù)提高性能?

對配備 Robotiq-2f-85 夾持器的 Franka Research 3 機器人進行六項任務評估,使用兩個 RealSense D435i 攝像頭,配置為 Eye-on-Hand 和 Eye-on-Base 進行視覺輸入。如圖顯示四個以泛化為中心的任務:

image.png

下圖顯示兩個高精度、接觸豐富的任務:

image.png

如圖所示,Seer 由以下模塊組成:圖像編碼器、感知器重采樣器、機器人狀態(tài)編碼器、語言編碼器、Transformer主干、動作解碼器和圖像解碼器。

END

轉(zhuǎn)載自CSDN-三谷秋水

底.png

下一篇: Satori:COAT 強化學習框架突破 LLM 推理極限,MIT 團隊開源 7B 模型實現(xiàn)數(shù)學推理 SOTA
上一篇: 擴散 Transformer 策略:大規(guī)模預訓練驅(qū)動跨具身 VLA 泛化,Calvin 基準 3.6 任務突破
相關(guān)文章
返回頂部小火箭