亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出

學習現實世界人形機器人的起身策略

三谷秋水 2025-03-04

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

2025年2月來自UIUC和Simon Fraser U的論文“Learning Getting-Up Policies for Real-World Humanoid Robots”。

跌倒的自動恢復是人形機器人可靠部署的關鍵先決條件。由于人形機器人跌倒后可能處于各種不同的配置,并且人形機器人需要在具有挑戰性的地形上運行,因此手工設計起身控制器非常困難。本文開發一個學習框架來生成控制器,使人形機器人能夠從不同地形的不同配置中起身。與以前成功的人形運動學習應用不同,起身任務涉及復雜的接觸模式,這需要準確建模碰撞幾何和更稀疏的獎勵。通過遵循課程的兩階段方法,本文應對這些挑戰。第一階段側重于在平滑度或速度/扭矩限制的最小約束下發現良好的起身軌跡。然后,第二階段將發現的動作細化為可部署的(即平滑和緩慢的)動作,這些動作對初始配置和地形的變化具有魯棒性。這些工作使現實世界中的 G1 人形機器人能夠從兩種主要情況中站起來:a) 仰臥和 b) 俯臥,這兩種情況都是在平坦、可變形、光滑的表面和斜坡上進行的測試(例如,濕滑的草地和雪地)。

本文開發學習控制器,使人形機器人能夠在各種地形上從各種跌倒姿勢中站起來。人形機器人容易跌倒,而它們對人類跌倒恢復的依賴阻礙它們的部署。此外,由于人形機器人預計會在復雜地形和狹小工作空間的環境中工作(即對輪式機器人來說太難的具有挑戰性場景),人形機器人在跌倒時可能會處于不可預測的配置,或者可能處于未知的地形上。在 DARPA 機器人挑戰賽 (DRC) 的 46 次試驗中,有 26 次發生跌倒,其中 25 次跌倒需要人工干預才能恢復 [40]。DRC 將跌倒預防和恢復確定為需要進一步研究的主要課題。

從不同的初始條件中恢復的需求使得手動設計跌倒恢復控制器變得困難,并激發了通過模擬中的反復試驗進行學習的需求。近年來,這種學習在涉及四足機器人和人形機器人的運動問題上產生令人興奮的結果,例如 [43, 60]。在這些結果的推動下,本文開始將 Sim-to-Real (Sim2Real) 范式應用于起身問題。然而,起身問題與典型的運動問題在以下三個重要方面有所不同,這使得對以前工作的簡單改進是不足的:

a) 非周期性行為。在運動中,與環境的接觸以結構化的方式發生:循環的左右步進模式。起身問題沒有這樣的周期性行為。需要弄清楚起身本身所需的接觸順序。這使得優化更加困難,并且可能導致運動中常用的左右腳相位耦合無效。

b) 接觸豐富。與運動不同,起身所需的接觸不僅限于腳。機器人的許多其他部位可能已經與地形接觸。但更重要的是,機器人可能會發現,利用腳以外的身體對環境施加力量,以便站起來很有用。凍結/解耦上身,只對上身進行粗略的碰撞建模,并使用更大的模擬步長:運動中做出的典型設計選擇不再適用于站起來的任務。

c) 獎勵稀疏性。設計站起來的獎勵比其他運動任務更難。速度跟蹤提供密集的獎勵,并且在幾十個模擬步驟內就可以獲得機器人是否有意義地向前行走的反饋。相比之下,身體的許多部位都取得負進步,例如,軀干首先需要向下傾斜幾秒鐘,然后才能向上傾斜才能最終站起來。

人形機器人控制

過去幾十年來,控制高自由度人形機器人一直吸引著研究人員。基于模型的技術,例如基于零力矩點 (ZMP) 原理 [31, 61, 69, 71]、優化 [4, 14, 41] 和模型預測控制 (MPC) [12, 15, 21, 74] 的技術,已在步行、跑步和跳躍等基本運動任務中取得了顯著成功。然而,這些方法往往難以泛化或適應新環境。相比之下,基于學習的方法最近取得了重大進展,不斷擴展人形運動控制器的泛化能力。

人形機器人控制學習:通過強化在模擬中學習,然后進行模擬-到-現實的遷移,已經為四足機器人 [42, 43] 和人形機器人 [2, 8, 26, 58–60] 帶來了許多成功的運動結果。這使得機器人可以在具有挑戰性的野外地形上運動 [25, 58],可以做出跳躍等敏捷動作 [44, 76],甚至可以由視覺輸入驅動運動 [46, 77]。研究人員還通過使用人體動作捕捉或視頻數據,將人形機器人的運動范圍擴展到舞蹈和自然步行步態等技巧性動作 [9, 30, 34, 53]。一些研究同時解決人形機器人的運動和操縱問題,從而通過遙操作以端到端的方式實現操縱控制器 [19, 29, 48]。值得注意的是,這些任務主要涉及腳與環境之間的接觸,因此只需要有限的接觸推理。如何有效地開發控制器以執行需要大量、動態且不可預測的全身與環境接觸的任務(如爬行、翻滾和起身),目前仍未得到充分探索。

腿式機器人跌倒恢復

人形機器人由于控制動力學不足、狀態高維和非結構化環境而容易跌倒 [24、27、31、32、38、40],因此從跌倒中恢復的能力非常重要。多年來,這個問題一直通過以下方式解決。

1)通過運動規劃起身:Morimoto 和 Doya [54] 的早期工作解決二維雙關節、三連桿步行機器人的起身問題,并使用幾個離散狀態作為子目標通過分層 RL 進行轉換。這項工作可以看作是通過配置圖轉換學習(graph transition learning)進行運動規劃的一種應用 [39],其中存儲的機器人在躺著和站著之間的狀態被用作轉換的圖節點 [20, 36, 37, 64]。最近,在讓玩具大小的人形機器人能夠站起來方面取得了一些進展。例如,Gonza ?lez-Fierro [23] 通過使用 ZMP 標準模仿人類示范,探索通過運動規劃從標準坐姿站起來的方法。為了解決人形配置的高維性,Jeong & Lee [33] 利用雙邊對稱性將控制自由度減少一半,并使用聚類技術進一步降低配置空間的復雜性,從而提高跌倒起身學習效率。然而,這種使用預定義配置圖的狀態機器學習,可能不足以泛化到不可預測的初始和中間狀態,當機器人在具有挑戰性的地形上操作時就會發生這種情況。

2)手工設計的起身軌跡:另一種解決方案是重現手動設計的運動軌跡,商業產品經常采用這種解決方案。例如,Unitree [70] 在 G1 的默認控制器中內置一個起身控制器。Booster Robotics [1] 為他們的機器人設計一個特定的恢復控制器,可以幫助機器人從跌倒狀態中恢復。這種預定義軌跡起身控制器的主要缺點,是它們只能處理有限數量的跌倒狀態并且缺乏泛化,正如下面實驗比較所示。

3)為真實機器人學習起身策略:強化學習后,模擬-到-真實遷移也已成功應用于四足機器人 [35, 43, 51, 72] 跌倒恢復。例如,Lee [43] 探索 sim2real 強化學習,以實現從復雜配置中恢復真實世界的四足機器人跌倒。Ji [35] 訓練一種恢復策略,使四足機器人能夠在雪地和崎嶇地形中持續運球。Wang [72] 在高度動態場景中開發一種四足機器人恢復策略。

4)學習人物動畫的起身策略:人物動畫中的一項平行研究工作也探索基于 RL 的運動模仿算法設計:DeepMimic [55]、AMP [56]、PHC [49] 和其他 [5、11、22、50、67、73]。這些算法也在模擬中展示成功的跌倒起身控制器。通過跟蹤用戶指定的起身曲線,Frezzato [17] 通過合成物理上合理的運動,使人形機器人能夠起身。無需借助動作捕捉數據,也可以通過精心的課程設計為模擬人形機器人開發這種自然的起身控制器 [65]。一些方法探索基于采樣的方法來解決接觸豐富的角色運動,包括站起來 [28, 45, 57],而一些工作已經證明使用在線模型預測控制在人形機器人站起來方面取得成功 [66]。然而,值得注意的是,這些方法使用的類人角色與人形機器人相比具有更大的自由度(例如,SMPL 中的 69 個自由度 [47]),并使用簡化的動力學。因此,學習的策略以高速和不可行的方式操作身體部位,導致無法直接遷移到現實世界中的行為。因此,為人形機器人開發可泛化的恢復控制器仍然是一個懸而未決的問題。

本文進行人形機器人跌倒后站起來的研究,并提出一個基于學習的框架,用于學習人形機器人在不同條件下的跌倒恢復策略:HUMANUP,它通過基于兩階段強化學習 (RL) 的訓練來解決這些問題。如圖所示:

image.png

其目標是學習一個起身策略π,使人形機器人能夠從任意初始姿勢起身。考慮從兩類躺姿起身:a) 仰臥姿勢(即面朝上躺著)和 b) 俯臥姿勢(即面朝下躺著)。從這兩組姿勢起身可能需要不同的行為,這使得學習一種能夠處理這兩種情況的單一策略具有挑戰性。為了解決這個問題,將起身任務從俯臥姿勢分解為先翻身,然后從由此產生的仰臥姿勢站起來。因此,目標是分別學習從俯臥姿勢翻身和從仰臥姿勢起身的策略。

為了解決這兩個任務,HUMANUP,用于訓練起身和翻身策略的通用學習,如圖所示。在第一階段,訓練發現策略 f 來找出站起來或翻身的動作。f 的訓練沒有部署約束,只使用任務和對稱獎勵。在第二階段,可部署策略 π 在強控制正則化下模仿從第一階段獲得的翻滾/起身行為。此可部署策略 π 作為最終策略從模擬遷移到現實世界。為了克服這些任務中接觸豐富運動學習的困難,設計一個學習課程如下:

image.png

策略架構

HUMANUP 使用 RL 訓練兩個策略模型 f 和 π。這兩個策略模型都將觀察值 o_t = [z_t , s_t , s_t?10:t?1] 作為輸入,輸出動作 a_t,其中 s_t 是機器人的本體感受信息,s_t?10:t?1 是 10 步歷史狀態,z_t 是使用正則化在線自適應學習的編碼環境外在潛信息 [18]。用本體感受信息 s_t,包括機器人的滾動和俯仰、角速度、DoF 速度和 DoF 位置。這種本體感受信息可以在現實世界中準確獲得,這些信息足以讓機器人推斷整體姿勢。不使用任何線速度和偏轉(yaw)信息,因為在現實世界中很難可靠地估計它們 [29]。

兩-階段策略學習

策略模型作為 MLP 實現并通過 PPO 進行訓練 [62]。優化目標是在 T 事件長度內最大化預期 γ 折扣的策略回報。

第一階段:發現策略:此階段可在不受部署約束的情況下有效發現起身/翻滾行為。用以下具有非常弱正則化的任務獎勵來訓練此發現策略 f。描述用于優化這兩個策略的獎勵如下。為簡單起見,省略時間步長 t 和獎勵權重項。

起身獎勵:r_up = r_height + r_?height + r_uprightness + r_stand_on_feet + r_? feet_contact_forces + r_symmetry,其中

r_height 鼓勵機器人站立時的高度接近目標高度;

r_?height 鼓勵機器人不斷增加其高度;

r_uprightness 鼓勵機器人增加 z 軸上的投影重力,以便機器人直立;

r_stand on feet 鼓勵機器人用雙腳站立;

r_?feet_contact_forces 鼓勵機器人不斷增加施加在腳上的接觸力;

r_symmetry 通過鼓勵(但不要求)機器人輸出雙側對稱動作來減少搜索空間。過去的工作 [33, 63] 采用硬對稱,以限制機器人的自由度和泛化為代價提高 RL 樣本效率。而軟對稱獎勵繼承這一好處,但減輕了限制。

翻滾獎勵:r_roll = r_gravity,其中 r_gravity 鼓勵機器人改變身體方向,使其投影重力接近仰臥時的目標投影重力。

2)第二階段:可部署策略:此階段訓練將直接部署在現實世界中的策略 π。策略 π 經過訓練以模仿第一階段發現的狀態軌跡,只是其 8 倍減速版,同時還尊重強正則化以確保 Sim2Real 可遷移性。用典型的控制正則化獎勵。

跟蹤獎勵:跟蹤獎勵 r_tracking 鼓勵人形機器人接近從發現的運動中得出的給定運動軌跡。 r_tracking = r_tracking_DoF + r_tracking_body,其中

r_tracking_DoF 鼓勵機器人移動到與參考運動相同的 DoF 位置,并且

r_tracking_body 鼓勵機器人將身體移動到與參考相同的位置。具體來說,r_tracking_body 變為 r_head_height 和 r_head_gravity,它們分別鼓勵機器人跟蹤機器人頭部的高度和投影重力,以執行起身和翻滾任務。

第一階段至第二階段課程

兩階段策略學習的設計本質上構建了一個由難到易的課程 [7]。第一階段的目標是在較容易的環境中發現運動(弱正則化、地形無變化、相同的起始姿勢、更簡單的碰撞幾何)。一旦發現運動,第二階段就會解決使學習的運動可部署和可泛化的任務。正如實驗所示,將工作分為兩個階段對于成功學習至關重要。具體而言,從第一階段到第二階段,復雜性以以下方式增加:

1)碰撞網格:如上圖所示,第一階段使用簡化的碰撞網格來更快地發現運動,而第二階段使用完整網格來提高 Sim2Real 性能。

2)姿勢隨機化:第一階段學習從標準姿勢起身(和翻身),加速學習,而第二階段從任意初始姿勢開始,增強泛化。為了進一步加快第一階段的速度,混合站立姿勢。對于第二階段,通過從標準躺姿中隨機化初始自由度、將人形機器人從 0.5 米處放下并模擬 10 秒來解決自碰撞,生成 20K 個仰臥姿勢 P_supine 和 20K 個俯臥姿勢 P_prone 的數據集 P。用每組中的 10K 個姿勢進行訓練,其余的用于評估。

3)控制正則化和地形隨機化:對于 Sim2Real 遷移,在第二階段使用以下控制正則化項和環境隨機化:

弱 → 強控制正則化。第一階段的弱控制正則化可以發現起身/翻滾動作,而第二階段的強控制正則化(通過平滑度獎勵和 DoF 速度懲罰等)鼓勵更多可部署動作。

? 快速 → 慢速動作速度。如果沒有強控制正則化,第一階段會發現快速但不安全的起身動作(<1 秒),這對于現實世界的部署是不可行的。為了解決這個問題,通過插值將其減慢到 8 秒,為第二階段提供穩定的跟蹤目標,這與其控制正則化更好地保持一致。

? 固定→隨機動態和域參數。第二階段還通過地形隨機化和噪聲注入采用域隨機化和動力學隨機化。這種隨機化已被證明在成功的 Sim2Real 中發揮著至關重要的作用 [68]。

平臺配置

在所有真實世界和模擬實驗中均使用 Unitree G1 平臺 [70]。G1 是一款中型人形機器人,總共有 29 個可驅動自由度 (DoF)。具體來說,上身有 14 個自由度,下身有 12 個自由度,腰部有 3 個自由度。由于起身不涉及物體操縱,禁用手腕中的 3 個自由度,總共有 23 個自由度。與之前的機器人不同,G1 具有腰部偏轉和滾動自由度,它們對于起身任務很有用。機器人有一個用于滾動和俯仰狀態的 IMU 傳感器,關節狀態可以從電機編碼器獲得。使用位置控制,其中扭矩由以 50 Hz 運行的 PD 控制器得出。

模擬配置

用 Isaac Gym [52] 進行模擬訓練和評估。用簡化碰撞的 URDF 進行第一階段訓練,使用 Unitree [70] 的官方全身 URDF 進行第二階段訓練。為了準確模擬人形機器人與地面之間的大量接觸,用 1000 Hz 的高模擬頻率,而低級 PD 控制器頻率為 50 Hz。

HUMANUP 有幾個局限性:

1)它依賴于高性能物理平臺(如 IsaacGym [52])來模擬接觸豐富的任務,例如起身和翻身。然而,目前的機器人模擬器落后于動畫和游戲模擬器,限制了接觸動力學模擬的準確性和效率,Genesis [6] 和 Mujoco Playground [75] 等進步很有幫助。

2)HUMANUP 中的 RL 過程是一個未充分指定的問題 [3, 13],很難確保學習的動作與類人行為精確一致。例如,動作傾向于舉起雙手保持平衡。

END

轉載自CSDN-三谷秋水

底.png

下一篇: Helix 讓 Figure-2 加速現實世界的物流
上一篇: 情感交互智能體完整搭建流程(完全免費本地化部署)
相關文章
返回頂部小火箭