亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出

RoboHorizo??n:用于長期機器人操作的 LLM-輔助多視圖世界模型

黃浴 2025-02-27

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

25年1月來自南京大學(xué)的論文“RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation”。

由于復(fù)雜的表示和策略學(xué)習(xí)要求,長期機器人操作的有效控制具有挑戰(zhàn)性。基于模型的視覺強化學(xué)習(xí) (RL) 在解決這些挑戰(zhàn)方面表現(xiàn)出巨大潛力,但仍然面臨明顯的局限性,特別是在處理長期環(huán)境中的稀疏獎勵和復(fù)雜視覺特征時。為了解決這些限制,本文提出用于長期任務(wù)的識別-感知-規(guī)劃-動作 (RSPA) 流程,并進一步引入 RoboHorizon,一種專為長期機器人操作定制的 LLM -輔助多視圖世界模型。在 RoboHorizon 中,預(yù)訓(xùn)練的 LLM 根據(jù)任務(wù)語言指令為多階段子任務(wù)生成密集的獎勵結(jié)構(gòu),使機器人能夠更好地識別長期任務(wù)。然后將關(guān)鍵幀發(fā)現(xiàn)集成到多視圖掩碼自動編碼器 (MAE) 架構(gòu)中,以增強機器人感知關(guān)鍵任務(wù)序列的能力,增強其對長期過程的多階段感知。利用這些密集獎勵和多視圖表示,可以構(gòu)建機器人世界模型來高效規(guī)劃長期任務(wù),使機器人能夠通過強化學(xué)習(xí)算法可靠地行動。在兩個代表性基準(zhǔn) RLBench 和 FurnitureBench 上進行的實驗表明,RoboHorizon 的表現(xiàn)在 RLBench 的 4 個短期任務(wù)上實現(xiàn) 23.35% 的任務(wù)成功率提升,在 RLBench 的 6 個長期任務(wù)和 FurnitureBench 的 3 個家具組裝任務(wù)上實現(xiàn) 29.23% 的提升。

如圖所示RSPA流程圖:

image.png

用于實際應(yīng)用的通用機器人機械手,應(yīng)該能夠執(zhí)行由多個子任務(wù)階段組成的長期任務(wù),例如廚房整理或倉庫揀選。例如,廚房整理需要機器人完成諸如分類食物、將食物放入冰箱和清潔臺面等任務(wù),而倉庫揀選可能涉及識別訂單、挑選物品和包裝物品。但真的能設(shè)計出這樣一個全面的機器人系統(tǒng)嗎?傳統(tǒng)上,長期機器人任務(wù)是使用“感知-規(guī)劃-動作”(SPA)流水線 [Marton,1984;Paul,1981;Murphy,2019] 來解決的,其中包括感知環(huán)境、基于動態(tài)模型規(guī)劃任務(wù)以及通過低級控制器執(zhí)行操作。實現(xiàn)該流程的常見方法,是使用視覺和語言編碼器提取與任務(wù)相關(guān)的特征進行表示學(xué)習(xí),然后使用基于模型的視覺強化學(xué)習(xí) (RL) 訓(xùn)練控制策略 [Dalal,2021;Yamada,2021;Dalal,2024]。盡管上述解決方案在一定程度上有效,但它們在復(fù)雜的長期任務(wù)中仍面臨重大挑戰(zhàn):(1) 語言和視覺編碼器難以捕捉長期任務(wù)中多階段子任務(wù)的層次結(jié)構(gòu)和依賴關(guān)系;(2) 此類任務(wù)中的環(huán)境反饋通常很稀疏,而 RL 策略嚴(yán)重依賴于合理的獎勵結(jié)構(gòu)。前者限制機器人充分理解任務(wù)動態(tài)和環(huán)境背景的能力,而后者進一步阻礙穩(wěn)定有效的長期操縱策略的發(fā)展。

在此提出的關(guān)鍵見解是,在基于模型的視覺強化學(xué)習(xí)中實現(xiàn)長期任務(wù)的穩(wěn)定執(zhí)行,依賴于使機器人能夠準(zhǔn)確理解任務(wù)、感知機器人與環(huán)境中的目標(biāo)之間的多階段交互以及通過結(jié)構(gòu)化獎勵系統(tǒng)學(xué)習(xí)穩(wěn)定的控制策略。如何讓機器人具備這些能力?利用預(yù)訓(xùn)練的大語言模型 (LLM) 和多視角攝像機捕捉的視覺演示來賦能機器人,主要是因為:1) LLM 在機器人技術(shù)方面取得重大進步,展示了諸如分步規(guī)劃 [Liang et al., 2023; Zeng et al., 2022; Ahn et al., 2022; Snell et al., 2022]、面向目標(biāo)(goal)的對話 [Zeng et al., 2022; Ahn et al., 2022; Huang,2022]、子目標(biāo)(sub-goal) [Huang,2023;Chen,2024a] 和基于語言指令機器人任務(wù)的獎勵生成 [Chiang,2019;Yu,2023]等。2)從多攝像頭視角的觀察可以顯著增強機器人的視覺操控能力,這種設(shè)置在現(xiàn)實世界的應(yīng)用中越來越普遍。從不同視點捕獲的執(zhí)行軌跡通常具有相似的環(huán)境動態(tài)和物理結(jié)構(gòu)。先前的研究已經(jīng)探索使用基于模型的 RL [Seo,2023b] 或模仿學(xué)習(xí) (IL) [Goyal,2023;Shridhar,2023;Ke,2024] 從多視圖離線數(shù)據(jù)中學(xué)習(xí)控制策略。

機器人的長期任務(wù)通常通過“感知-規(guī)劃-動作”(SPA)流程來解決 [Marton,1984;Paul,1981;Murphy,2019]。該流程涉及全面的環(huán)境感知、基于環(huán)境動態(tài)模型的任務(wù)規(guī)劃以及通過低級控制器執(zhí)行動作。傳統(tǒng)方法涵蓋一系列技術(shù),從操作規(guī)劃 [Taylor,1987]、抓握分析 [Miller & Allen,2004] 到任務(wù)-運動規(guī)劃 (TAMP) [Garrett,2021] 和技能-鏈 [Chen,2024b]。另一方面,最近的方法整合視覺驅(qū)動的學(xué)習(xí)技術(shù) [Mahler,2016;Sundermeyer,2021]。這些算法能夠在復(fù)雜的高維動作空間中進行長遠(yuǎn)決策 [Dalal et al., 2024]。然而,它們在處理富含接觸的交互時經(jīng)常面臨挑戰(zhàn) [Mason, 2001; Whitney, 2004],容易因不完善的狀態(tài)估計而產(chǎn)生級聯(lián)錯誤 [Kaelbling & Lozano-Pe ?rez, 2013],并且需要大量的人工工程 [Garrett et al., 2020]。

基于計算機視覺和機器人學(xué)習(xí)的最新進展,已經(jīng)開發(fā)出許多方法來利用來自攝像機的多視圖數(shù)據(jù)進行視覺控制 [Akinola,2020;Chen,2021;Hsu,2022;Chen,2023;Shridhar,2023;Seo,2023b]。 其中一些方法利用自監(jiān)督學(xué)習(xí)來獲得視角不變的表示 [Sermanet,2018],學(xué)習(xí) 3D 關(guān)鍵點 [Chen,2021;Shridhar,2023;Ke,2024],或從不同視角進行表示學(xué)習(xí) [Seo,2023b] 以解決后續(xù)的操作任務(wù)。然而,這些方法通常僅限于短期機器人視覺控制任務(wù),缺乏處理長期、多視角機器人視覺表征的能力。

本文提出 RoboHorizon,一個LLM-輔助的多視角世界模型,旨在實現(xiàn)穩(wěn)定的長期機器人操控。

RoboHorizon 概述如圖所示:使用 RLBench 中的長期機器人操作任務(wù)“將鞋子從盒子中取出”作為示例,遵循所提出的 RSPA 流程

image.png

將長期任務(wù)視為部分可觀察馬爾可夫決策過程 (POMDP) [Sutton,1999],定義為 (S, A, T , R, p_0, O, p_O, γ)。子任務(wù) ω 是從完整任務(wù)的 POMDP 派生出較小的 POMDP (S, A_ω, T, R_ω, p_0^ω)。

在本文例子中,觀察空間由所有 RGB 圖像組成。獎勵函數(shù)由大語言模型 (LLM) 生成,任務(wù)描述以自然語言提供給智體。還假設(shè)該任務(wù)有多視圖演示數(shù)據(jù)可用:ζ_n^v = {o_0^v,...,o_n^v}。

LLM-輔助獎勵生成——識別

給定一個任務(wù)的語言描述,提示 LLM 生成相應(yīng)的任務(wù)規(guī)劃并編碼與任務(wù)每個階段緊密相關(guān)的密集獎勵。跟隨 Yu (2023) ,將語言轉(zhuǎn)化為獎勵的過程分解為兩個階段:多階段任務(wù)描述和密集獎勵生成。值得注意的是,這里的內(nèi)部提示和任務(wù)設(shè)置完全不同。

在第 1 階段,用預(yù)訓(xùn)練的 LLM 作為多階段規(guī)劃描述子,它使用預(yù)定義的模板將用戶輸入解釋并擴展為所需機器人動作的詳細(xì)語言描述。為了使多階段規(guī)劃描述子能夠為長期任務(wù)生成連貫的結(jié)構(gòu),創(chuàng)建一個提示模板來概述當(dāng)前的機器人任務(wù)設(shè)置。這利用預(yù)訓(xùn)練 LLM 的內(nèi)部運動規(guī)劃知識來生成詳細(xì)的運動描述。在第 2 階段,部署另一個 LLM 作為密集獎勵生成器,將這些運動描述轉(zhuǎn)換為相應(yīng)的獎勵函數(shù)。其作為編碼任務(wù)來處理,利用預(yù)訓(xùn)練的 LLM 對編碼和代碼結(jié)構(gòu)的理解。四種類型的提示,指導(dǎo)密集獎勵生成器生成獎勵代碼:i)基于任務(wù)環(huán)境界面的任務(wù)階段描述,ii)預(yù)期獎勵生成器響應(yīng)的示例,iii)獎勵編碼器的約束和規(guī)則,以及 iv)具體任務(wù)描述。(雖然任何預(yù)訓(xùn)練的語言模型都可以用于獎勵生成,但只有 GPT-4o(OpenAI,2024)能夠可靠地為所有任務(wù)生成正確的規(guī)劃和獎勵。)

如圖所示LLM-輔助獎勵生成流程圖:

image.png

關(guān)鍵期多視圖表示學(xué)習(xí)——感知

為了使機器人能夠從長期多視圖視覺演示中學(xué)習(xí)多階段交互表示,提出基于 MV-MAE 架構(gòu)的關(guān)鍵期多視圖掩碼自動編碼器 (KMV-MAE) [Seo et al., 2023b]。 KMV-MAE 方法使用關(guān)鍵幀發(fā)現(xiàn)方法從多視圖演示中提取關(guān)鍵期 [James and Davison, 2022]。然后,對這些關(guān)鍵期進行視圖掩碼訓(xùn)練,并使用視頻掩碼自動編碼器從掩碼視點重建缺失像素。遵循先前的工作 [Seo et al., 2023a; Seo et al., 2023b],屏蔽卷積特征而不是像素塊并預(yù)測獎勵以捕獲對長期視覺控制至關(guān)重要的細(xì)粒度細(xì)節(jié)。

關(guān)鍵幀發(fā)現(xiàn)。KMV-MAE 中的關(guān)鍵幀發(fā)現(xiàn)方法遵循先前的研究 [James and Davison, 2022; Goyal et al., 2023; Shridhar et al., 2023; Ke et al., 2024],根據(jù)接近零的關(guān)節(jié)速度和不變的夾持器狀態(tài)識別關(guān)鍵幀。如圖所示,該方法捕獲了從演示 ζ^v 中取出鞋子的任務(wù)中每個視點的關(guān)鍵幀 K^v = {k_1^v, k_2^v, ..., k_m^v },其中 k 表示關(guān)鍵幀編號。

image.png

演示中每個關(guān)鍵幀的對應(yīng)時間步長為 {t_k_1 , . . . , t_k_m}。然后,每個相鄰的關(guān)鍵幀對 k_i^v 和 k_i+1^v 形成一個關(guān)鍵期 h_i = {o_t_k_i^v ,...,o_t_k_I+1^v }。注:每個關(guān)鍵期中的 RGB 觀測數(shù)量會有所不同,具體取決于演示中相鄰關(guān)鍵幀之間的時間步長差異。

視圖和管道掩碼和重建。為了從多視圖長期演示中提取更多交互信息,提出一種視圖和管道掩碼方法。對于每一幀,隨機屏蔽四個視點中三個的所有特征,而剩余視點的 95% 的 patches 被隨機掩碼。在關(guān)鍵期中,未掩碼的視點遵循管道掩碼策略 [Tong et al., 2022]。這種方法增強跨視圖特征學(xué)習(xí),考慮單個視點內(nèi)的時間相關(guān)性,減少信息泄漏,并改進時間特征表示。將視頻掩碼自動編碼 [Feichtenhofer,2022;Tong,2022] 與視圖和管道掩碼操作相結(jié)合。視覺 Transformer (ViT) [Dosovitskiy,2020] 層對所有視點和幀中的未掩碼特征序列進行編碼。按照 Seo (2023a;2023b) 的做法,將掩碼 tokens 與編碼特征連接起來,并為每個視點和幀添加可學(xué)習(xí)的參數(shù),將特征與掩碼 tokens 對齊。最后,ViT 層對特征進行解碼,將它們投影以重建像素 patches,同時預(yù)測獎勵以編碼與任務(wù)相關(guān)的信息。這個表示學(xué)習(xí)過程可以概括為:給定演示視頻 ζ_n^v = {o_0^v, . . . , o_n^v},通過關(guān)鍵幀發(fā)現(xiàn)方法提取 m 個關(guān)鍵幀 {k_1^v, k_2^v,...,k_m^v} 后,它們從多個角度變?yōu)榘琺 ? 1個關(guān)鍵期的形式:ζ^v = {h_1^v,...,h_m-1^v}_v∈V。給定 LLM-輔助生成的獎勵 r = {r_1, ..., r_n},掩碼率為 m,KMV-MAE 由以下組件組成:依次為卷積、視圖和管道掩碼、ViT 編碼器和 ViT 解碼器

image.png

最后,訓(xùn)練模型重建關(guān)鍵期像素并預(yù)測獎勵,即最小化負(fù)對數(shù)似然以優(yōu)化模型參數(shù) φ,如下所示:

image.png

RoboHorizon 世界模型 – 規(guī)劃

在規(guī)劃部分,按照先前的工作 [Seo et al., 2023a; Seo et al., 2023b] 構(gòu)建 RoboHorizon,將其實現(xiàn)為循環(huán)狀態(tài)空間模型 (RSSM) [Hafner et al., 2019] 的變型。該模型使用來自先前關(guān)鍵期多視圖表征學(xué)習(xí)的凍結(jié)自動編碼器表示作為輸入和重建目標(biāo)。RoboHorizon 包括以下組件:

image.png

編碼器從先前狀態(tài) s_t-1、先前動作 a_t-1 和當(dāng)前自動編碼器表示 z_t 中提取狀態(tài) s_t。動態(tài)模型無需訪問 z_t 即可預(yù)測 s_t,從而允許前向預(yù)測。解碼器重建 z_t 以提供模型狀態(tài)的學(xué)習(xí)信號,并預(yù)測 r_t 以從未來狀態(tài)計算獎勵,而無需解碼未來的自動編碼器表示。所有模型參數(shù) θ 都通過最小化負(fù)變分下限 [Kingma & Welling, 2014] 進行聯(lián)合優(yōu)化:

image.png

其中 β 是尺度超參數(shù)。

控制策略學(xué)習(xí) – Act

對于動作部分,基于 [Seo et al., 2023a; Seo et al., 2023b] 的方法,并采用 DreamerV2 [Hafner et al., 2021] 中的AC框架。目標(biāo)是通過 RoboHorizon 世界模型反向傳播梯度來訓(xùn)練最大化預(yù)測未來值的策略。具體來說,將一個隨機 Actor 和一個確定性 Critics 定義為:

image.png

這里,使用來自等式(2) 的隨機 actor 和動力學(xué)模型,從初始狀態(tài) s?_0 預(yù)測序列 {(s?_t, a?_t, r?_t)}。與以前的工作不同,本文將 H 設(shè)置為與長期任務(wù)中每個關(guān)鍵期的長度相匹配,每個關(guān)鍵期序列具有不同的持續(xù)時間。給定 λ-回報 [Schulman et al., 2015] 定義為:

image.png

其中 critics 接受回歸 λ 回報的訓(xùn)練,而 actor 接受最大化 λ 回報的訓(xùn)練,梯度通過世界模型反向傳播。為了使機器人能夠更可靠地執(zhí)行長期任務(wù),引入輔助行為克隆損失,鼓勵智體在與環(huán)境交互時學(xué)習(xí)專家操作。為了實現(xiàn)這一點,遵循 [James and Davison, 2022; Seo et al., 2023b] 來獲取演示。因此,actor 網(wǎng)絡(luò)和 critics 網(wǎng)絡(luò)的目標(biāo)是:

image.png

其中輔助行為克隆的目標(biāo)是

image.png

因此,利用生成的密集獎勵結(jié)構(gòu),RoboHorizon 中感知、規(guī)劃和動作過程的訓(xùn)練目標(biāo)是最小化上述 3 個子目標(biāo)函數(shù)之和。

環(huán)境設(shè)置。為了進行定量評估,采用演示驅(qū)動的 RL 設(shè)置來解決 RLBench [James et al., 2020] 和 FurnitureBench [Heo et al., 2023] 中的視覺機器人操作任務(wù)。在這兩個基準(zhǔn)測試中,都依賴于有限的環(huán)境交互和專家演示。所有實驗僅使用來自每個攝像頭的 RGB 觀測值,而不包含本體感受狀態(tài)或深度信息。根據(jù)之前的研究 [James and Davison, 2022; Seo et al., 2023b],用專家演示填充重放緩沖區(qū),RL 智體輸出夾持器位置的相對變化。對于所有任務(wù),每個攝像頭視圖都提供 50 個專家演示。對于 FurnitureBench,用低隨機性環(huán)境初始化設(shè)置。

多視角攝像頭設(shè)置。采用多視角觀察和單視角控制方法 [Seo et al., 2023b],適用于訓(xùn)練期間有多個攝像頭可用、但機器人在部署期間依賴單個攝像頭的場景。對于 RLBench 任務(wù),用來自前置、腕部、左和右攝像頭的多視角數(shù)據(jù)來增強機器人對長期任務(wù)和環(huán)境的感知,同時訓(xùn)練僅依靠前置攝像頭輸入運行的 RL 智體。對于 FurnitureBench 任務(wù),使用來自前置和腕部攝像頭的多視角數(shù)據(jù),并使用相同的訓(xùn)練和控制設(shè)置。在 RLBench 中對 10 個代表性任務(wù)進行實驗,其中包括 4 個短期任務(wù)(將手機放在底座上、將雨傘從支架上取出、將垃圾放入垃圾桶、堆放葡萄酒)和 6 個長期任務(wù)(將鞋子從盒子中取出、將鞋子放入盒子中、清空容器、將書放在書架上、將物品放入抽屜、打開柜子并放置杯子),以及 FurnitureBench 中的 3 個長期家具組裝任務(wù)(柜子、燈、圓桌),如圖所示。在這些任務(wù)中,前、左、右攝像頭提供機器人工作空間的廣闊視圖,而腕部攝像頭提供了目標(biāo)物體的特寫視圖。

image.png

模擬環(huán)境。用 RLBench [James et al., 2020] 和 FurnitureBench [Heo et al., 2023] 模擬器。在 RLBench 環(huán)境中,用配備平行夾持器的 7-DoF Franka Panda 機械臂在 4 個短期和 6 個長期視覺操作任務(wù)上進行實驗。在 FurnitureBench 環(huán)境中,用相同的機器人配置在 3 個長期家具組裝任務(wù)上進行實驗。

數(shù)據(jù)收集。為了實現(xiàn)將強化學(xué)習(xí)與行為克隆相結(jié)合的關(guān)鍵期多視圖表示學(xué)習(xí)和策略學(xué)習(xí),首先收集兩種類型的模擬任務(wù)專家數(shù)據(jù)。為了在 RLBench 中收集演示數(shù)據(jù),將 PyRep [https://github.com/stepjam/PyRep] 中 Franka Panda 機械臂的最大速度提高一倍,這縮短演示的持續(xù)時間,同時又不會顯著影響演示的質(zhì)量。對于每個短期任務(wù),用 RLBench 的數(shù)據(jù)集生成器為每個攝像機視圖收集 50 條演示軌跡,對于每個長期任務(wù),為每個攝像機視圖收集 100 條演示軌跡。對于 FurnitureBench 任務(wù)中的數(shù)據(jù)收集,利用平臺提供的自動化家具組裝腳本來自動化數(shù)據(jù)收集過程。同樣,對于每個長期家具組裝任務(wù),為每個攝像機視圖收集 100 條演示軌跡。

如圖所示:4 個短期 RLBench 任務(wù)

image.png

如圖所示:6 個長期 RLBench 任務(wù)

image.png

如圖所示:3 個長期 FurnitureBench 任務(wù)

image.png

實施。實施建立在官方 MV-MWM [Seo et al., 2023b] 框架上,除非另有說明,否則實施細(xì)節(jié)保持不變。為了加快訓(xùn)練速度并緩解模擬器速度慢造成的瓶頸,運行 8 個并行模擬器。自動編碼器由一個 8 層 ViT 編碼器和一個 6 層 ViT 解碼器組成,嵌入維度設(shè)置為 256。在所有實驗中保持一組一致的超參數(shù)。

計算硬件。對于所有 RLBench 實驗,用單個 NVIDIA GeForce RTX 4090 GPU 和 24GB VRAM,訓(xùn)練 MV-RoboWM 需要 12 小時,訓(xùn)練 MV-MWM 需要 16 小時。

END

底.png

下一篇: LAMS:LLM 驅(qū)動自動模式切換輔助遙操作
上一篇: 具身智能行為學(xué)習(xí)需要什么數(shù)據(jù)?
相關(guān)文章
返回頂部小火箭