亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出

HiRT:利用分層機器人Transformer 增強機器人控制

三谷秋水 2025-03-03

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

2025年2月來自清華、伯克利分校和上海姚期智研究院的論文“HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers”。

大型視覺-語言-動作 (VLA) 模型利用強大的預(yù)訓(xùn)練視覺-語言模型 (VLM) 后端,由于其深刻的泛化能力而在機器人控制方面顯示出良好的前景。然而,成功是有代價的。它們對具有數(shù)十億個參數(shù)的 VLM 后端的依賴導(dǎo)致高昂的計算成本和推理延遲,將測試場景限制在主要的準靜態(tài)任務(wù)上,并阻礙需要快速交互的動態(tài)任務(wù)性能。為了解決這些限制,本文提出 HiRT,這是一個分層機器人 Transformer 框架,可實現(xiàn)靈活的頻率和性能權(quán)衡。HiRT 使 VLM 保持低頻運行以捕獲暫時不變的特征,同時通過緩慢更新特征引導(dǎo)的高頻基于視覺策略實現(xiàn)實時交互。模擬和真實世界環(huán)境中的實驗結(jié)果,都表明與基線方法相比有顯著的改進。從經(jīng)驗上講,在靜態(tài)任務(wù)中,將控制頻率加倍并實現(xiàn)相當?shù)某晒β省4送猓谥暗?VLA 模型所面臨的挑戰(zhàn)——現(xiàn)實世界動態(tài)操作任務(wù)中,HiRT 將成功率從 48% 提高到 75%。

如圖所示 HiRT 的高端架構(gòu):

image.png

大型視覺-語言-動作 (VLA) 模型 [1, 2] 提供一種將大型視覺-語言模型 (VLM) [3, 4, 5, 6] 與具體任務(wù)的端到端訓(xùn)練相結(jié)合的原則性方法。現(xiàn)有的 VLA 模型 [1, 2] 以預(yù)訓(xùn)練的 VLM 為基礎(chǔ),提出在海量機器人數(shù)據(jù)上調(diào)整 VLM,從而實現(xiàn)直接的端到端機器人控制,同時享受 VLM 預(yù)訓(xùn)練的好處。現(xiàn)有的研究主要側(cè)重于多任務(wù)泛化,提高零樣本和少樣本學(xué)習(xí)在各種任務(wù)中的表現(xiàn)。

雖然具有數(shù)十億個參數(shù)的 VLM 后端帶來卓越的泛化優(yōu)勢,但代價是繁重的計算負擔(dān)。在部署期間,它會導(dǎo)致控制推理速度低和延遲高。這會減慢機器人的移動速度并延長任務(wù)完成時間,從而損害動態(tài)任務(wù)(如在雜亂環(huán)境中操縱快速移動目標)的性能和安全性 [7, 8]。大型 VLA 模型的控制頻率限制仍然是在現(xiàn)實世界的機器人上部署這些先進模型的重大障礙。

語言為條件的模仿學(xué)習(xí)在機器人操作中的應(yīng)用。通過模仿學(xué)習(xí)將語言與機器人動作 [10, 11, 12] 相結(jié)合的研究歷史悠久,其中語言通常用作目標規(guī)范 [13, 14, 15, 16] 或規(guī)劃的中間表征 [17, 18, 19]。一些先前的研究已經(jīng)采用強化學(xué)習(xí)技術(shù) [20, 21, 22, 23, 24] 來解決某些類型的下游任務(wù)。為了解決這些 RL 方法無法泛化的問題,最近的研究集中在使用大語言模型 (LLM) [17, 25, 26, 27, 28] 進行高級任務(wù)規(guī)劃,并在專家機器人數(shù)據(jù)集上微調(diào)視覺語言模型 (VLM) 進行低級機器人控制 [20, 13, 24, 29, 30, 31]。

機器人的視覺語言模型。將預(yù)訓(xùn)練的 VLM [3、4、5、6、32] 應(yīng)用于各種具體場景是最近的研究重點。大多數(shù)先前的研究都側(cè)重于使用 VLM 進行高級規(guī)劃或推理 [27、33、34、35、36、37、38]。為了有效地將視覺或語言信息與物理環(huán)境聯(lián)系起來,具身模型需要對具身數(shù)據(jù) [1] 上的預(yù)訓(xùn)練 VLM 進行微調(diào),包括包含語言形式任務(wù)級規(guī)劃的視頻數(shù)據(jù) [39、17、27]、簡單文本描述 [40、41]、低級動作 [42、43、44](稱為視覺-語言-動作模型)。然而,部署如此大的 VLA 模型通常會導(dǎo)致推理速度變慢 [45],這使得具身模型不適合需要精確操作或快速執(zhí)行的場景。

分層動作規(guī)劃。分層動作規(guī)劃 [17, 46, 27, 47, 48] 涉及將一項任務(wù)分解為多個可直接執(zhí)行的簡單任務(wù),從而使策略能夠應(yīng)對更復(fù)雜、更長遠的任務(wù)。先前的研究已經(jīng)證明在 LLM 中輸入提示作為通向低級操作橋梁的作用。具體來說,這可以通過任務(wù)級規(guī)劃 [49, 39, 46]、代碼執(zhí)行 [50, 51, 52] 或其他規(guī)劃表征(如 3D 場景圖 [53]、affordance 函數(shù) [54] 和運動的動作模式 [55])來實現(xiàn)。然而,這些方法通常與物理體現(xiàn)無關(guān),從而阻止高級模型直接與物理環(huán)境交互。

受人類認知 Dual-Process 理論 [9] 的啟發(fā),本文提出 HiRT,一種用于 VLA 模型的分層交互式模仿學(xué)習(xí)框架。HiRT 利用系統(tǒng) 2 提取高級、緩慢變化的信息,以指導(dǎo)輕量級系統(tǒng) 1 模塊。這個由較小模型實現(xiàn)的系統(tǒng) 1 可以對環(huán)境變化做出快速反應(yīng)。盡管輕量級,但 HiRT 中的系統(tǒng) 1 可以利用系統(tǒng) 2 的指導(dǎo),保持與原始 VLM 相當?shù)男阅埽瑫r獲得顯著的速度提升。

HiRT,是一種支持多任務(wù)學(xué)習(xí)和快速推理的分層策略架構(gòu)。關(guān)鍵的直覺是借助預(yù)訓(xùn)練的 VLM 從多模態(tài)輸入中提取豐富的語義表征,然后將這些表征應(yīng)用于可以異步且獨立于 VLM 運行的輕量級動作策略。具體來說,HiRT 探索一種流行的視覺語言模型 InstructBLIP [5],利用其開源模型作為主干。目標是使用潛條件策略輸出低級動作,該策略利用歷史觀察和 VLM 編碼的潛信息。這種小規(guī)模策略應(yīng)該以更高的頻率獨立于大型模型運行,因此需要一個由輕量級視覺編碼器組成的緊湊架構(gòu)。繼 BC-Z [15] 和 RT-1 [13] 之后,本文設(shè)計一個潛條件模型作為低級策略,能夠以高頻率獨立執(zhí)行有限數(shù)量任務(wù)的行為克隆。

如圖所示 HiRT 的網(wǎng)絡(luò)結(jié)構(gòu):

image.png

語言條件下的操作問題可以看作是在馬爾可夫決策過程建模的環(huán)境下的決策序列:image.png,其中image.png分別表示狀態(tài)空間,動作空間和初始狀態(tài)分布,image.png表示獎勵函數(shù),表示所需狀態(tài)或任務(wù)是否已完成,image.png表示環(huán)境的概率前向動態(tài)函數(shù)。具體而言,給定一個指定某項任務(wù)的自由形式語言指令image.png,控制策略接收一個視覺觀察image.png,該觀察通常由一系列圖像組成。然后,從控制策略建模的動作分布image.png中采樣一個動作image.png,該動作包含末端執(zhí)行器的相對位置和姿勢。

對于HiRT,策略image.png由視覺語言模型中的image.png和快速潛條件策略中的image.png參數(shù)化。在軌跡image.png的某些時間步驟中,VLM 主干網(wǎng)接收通過異步采樣獲得的視覺觀察image.png和自然語言指令image.png,并輸出融合嵌入:image.png。同時,在每個步驟中,潛條件模型根據(jù)視覺觀察的近期背景和最新潛信息預(yù)測動作:image.png

使用視覺-語言模型編碼多模態(tài)信息

在 HiRT 中,InstructBLIP [5] 使用單幅圖像形式的視覺信號image.png對指令image.png進行編碼。InstructBLIP 包含一個預(yù)訓(xùn)練的視覺編碼器、一個大型語言模型 (LLM)、可學(xué)習(xí)的查詢標記和一個 Q-Former [3]。在每個執(zhí)行時間步驟image.png,視覺觀察(來自手腕或第三視角攝像頭)由視覺 Transformer (ViT) [56] 編碼為一系列視覺 tokens:

image.png

其中 N 表示 token 長度,d 表示 token 寬度。隨后,image.png與指令 tokenimage.png和可學(xué)習(xí)查詢 tokenimage.png連接,并由 Q-Former(輕量級轉(zhuǎn)換器)編碼為融合語義信息的圖像表征:

image.png

最后,這些視覺查詢特征用作預(yù)訓(xùn)練 LLM(LLaMA [57])的提示。將第 i 層的嵌入設(shè)置為image.png,第 i + 1 層的輸出計算如下:

image.png

其中 L 表示 LLM 中 Transformer 層的深度,MSA 表示多頭注意模塊,MLP 代表多層感知器,LN 表示 LayerNorm。目標是使用信息豐富的語言嵌入來指導(dǎo)動作生成,而不是從最終層輸出image.png生成語言 tokens。采用 MAP 模塊 [58](單層注意模塊)來聚合這些表征:image.png,它將用于調(diào)節(jié)動作策略。

潛條件策略

遵循使用指令和視頻作為任務(wù)嵌入的 BC-Z [15] 和 RT-1 [13],用輕量級視覺編碼器(即 EfficientNet [59] 和 Vision Transformer [4])將圖像上下文image.png編碼為視覺 tokenimage.png。然后,使用 MAP 塊將所有 tokens 聚合到連續(xù)動作空間中。為了進一步整合由 VLM 編碼的信息任務(wù)嵌入,在視覺編碼器或動作頭上使用以下條件策略:

FiLM 條件。對于基于卷積網(wǎng)絡(luò) (CNN) 的視覺編碼器,每個隱藏層都以 VLM 潛變量image.png為條件。在 EfficientNet 中,使用 FiLM 層來計算條件特征:image.png,其中 H 表示隱藏特征,image.png是 FiLM 層中可學(xué)習(xí)的參數(shù)。

具有交叉注意層的條件。在 Transformer 的每個自注意層中,插入一個額外的交叉注意層進行條件處理:image.png,其中 image.png表示將image.png投影到隱 token 空間 H 的可學(xué)習(xí)參數(shù)。

具有前綴調(diào)整的條件。為了更好地使 VLM 能夠調(diào)節(jié)低級動作,利用 VLM 潛變量image.png作為動作頭中 MAP 塊的前綴提示。具體而言,動作由image.png計算。

訓(xùn)練和推理策略

異步操作和采樣。在推理階段,可以通過調(diào)整 VLM 的執(zhí)行頻率來加速模型。具體而言,在初始時間步驟 t = 0 時,VLM 使用視覺上下文對多模態(tài)信息進行編碼并將其存儲在緩存中。在后續(xù)步驟中,潛條件策略使用緩存中最新的潛變量快速輸出操作,而 VLM 與潛條件策略異步并行運行。這種異步機制允許策略以與潛條件策略幾乎相同的速度運行,避免由于 VLM 推理速度較慢而導(dǎo)致的延遲。但是,異步操作可能會導(dǎo)致策略使用反映前幾個步驟的場景和指令信息的潛變量,這與訓(xùn)練中使用的信號不一致。因此,在訓(xùn)練階段,HiRT 從過去的觀察上下文image.png中隨機選擇一個步驟,并使用相應(yīng)的第三視圖圖像作為 VLM 的視覺輸入。這種技術(shù)可以增強策略對時間不一致的潛變量的魯棒性。

訓(xùn)練目標。在訓(xùn)練期間,VLM 部分使用 LoRA [60] 進行微調(diào),而網(wǎng)絡(luò)的其余部分則完全微調(diào)。具體來說,利用最大似然模仿學(xué)習(xí)目標。通過回歸損失(例如 MSE 損失)優(yōu)化末端執(zhí)行器(或連續(xù)關(guān)節(jié)動作)的期望相對位置image.png。使用二元交叉熵損失優(yōu)化末端執(zhí)行器的離散狀態(tài)image.png

image.png

其中image.png表示在采樣小批量 B 中末端執(zhí)行器的相對位置和狀態(tài)的演示。

模擬設(shè)置。Metaworld 基準測試提供 50 個不同的桌面操作任務(wù),其中本文使用 20 個任務(wù)(每個任務(wù)有 50 個專家演示)進行多任務(wù)學(xué)習(xí)。Franka-Kitchen 包括 5 個廚房操作任務(wù)。按照 Nair [19] 的做法,針對每個任務(wù)的 100 個專家演示訓(xùn)練策略模型,并在原點和兩個新場景(改變場景的配色方案)中對任務(wù)進行測試。記錄成功率以評估任務(wù)性能:Metaworld 中每個任務(wù)嘗試 20 次,F(xiàn)ranka-Kitchen 中每個任務(wù)嘗試 100 次。為了評估推理速度,直接測量策略處理 100 幀所需的平均時間(避免渲染的影響)。

真實世界設(shè)置。真實世界實驗涉及 Franka Emika Panda 機器人上的多個準靜態(tài)操作任務(wù),包括拾取和放置各種物體、布線、按下按鈕和打開抽屜。具體來說收集了 2000 條軌跡,包括來自手腕和第三視角相機的圖像觀測。對于準靜態(tài)測試,在桌子上放置許多其他物體來引入干擾,還測試模型是否可以抓住它從未見過的全新物體,以驗證其語義基礎(chǔ)能力。此外,通過在機械臂執(zhí)行其動作時以大致恒定的速度移動目標物體來測試策略在動態(tài)任務(wù)上的性能。所有任務(wù)都涉及隨機化(例如物體的位置、類型、干擾物體的數(shù)量以及夾持器的初始狀態(tài))。報告 20 次嘗試中每個任務(wù)的成功率以及在現(xiàn)實世界中推出的平均時間成本。

在實施過程中,使用預(yù)訓(xùn)練的 EfficientNet-B3 [59] 和 ViT-B/16 [56] 作為低級策略的視覺編碼器,它們已經(jīng)在大型視覺數(shù)據(jù)上進行預(yù)訓(xùn)練。在訓(xùn)練中,在整個 InstructBLIP 模型中插入適配器層(LoRA 層),包括 ViT、Qformer 和 LLaMA。在模擬結(jié)果中,低級策略利用前者的 CNN 架構(gòu),而在真實世界結(jié)果中,采用基于 Transformer 的 ViT 架構(gòu)。對于模擬,快速策略主要包含預(yù)訓(xùn)練的 EfficientNet-B3 視覺編碼器和 FiLM 層,總共約有 35M 個參數(shù)。對于現(xiàn)實世界,快速策略主要包含預(yù)訓(xùn)練的 ViT-B/16 和交叉注意層,具有 150M 個參數(shù)。

HiRT-- Enhancing Robotic Control with Hierarchical Robot Transformers 2410.05273v3.pdf

END

改編自CSDN-三谷秋水

底.png

下一篇: 強化學(xué)習(xí)中 Sim-to-Real 方法綜述:基礎(chǔ)模型的進展、前景和挑戰(zhàn)
上一篇: 從系統(tǒng) 1 到系統(tǒng) 2:大語言模型推理的綜述
相關(guān)文章
返回頂部小火箭