亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出

強化學習中 Sim-to-Real 方法綜述:基礎模型的進展、前景和挑戰

三谷秋水 2025-03-03

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

2025年2月來自 Arizona State U 的論文“A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models”。

深度強化學習 (RL) 已被探索并證實可有效解決機器人、交通、推薦系統等各個領域的決策任務。它從與環境的交互中學習,并使用收集的經驗更新策略。然而,由于現實世界數據有限,采取有害行動的后果難以承受,RL 策略的學習主要局限于模擬器中。這種做法保證學習的安全性,但在部署方面不可避免地引入模擬-到-現實的差距,從而導致性能下降和執行風險。人們嘗試使用各種技術來解決不同領域的模擬-到-現實問題,尤其是在大型基礎或語言模型等新興技術的時代,這些技術為模擬-到-現實帶來啟示。這篇綜述論文從馬爾可夫決策過程的關鍵要素(狀態、動作、轉換和獎勵)構建模擬-到-現實技術的分類。基于該框架,涵蓋從經典到最先進方法的全面文獻,包括由基礎模型賦能的模擬-到-現實技術,并討論模擬-到-現實問題不同領域中值得關注的特點。總結使用可訪問代碼或基準的模擬-到-現實性能的正式評估過程,以及挑戰和機遇。

強化學習 (RL) 算法因其良好的順序決策能力而在多個領域展現出潛力。除了游戲場景外,這些解決方案也越來越接近現實世界的問題,例如機器人控制 [111]、推薦系統 [3, 38]、醫療保健 [76, 241] 和交通 [87, 229] 等。

盡管對基于 RL 的方法進行前沿探索,但在現實世界中部署 RL 學習的策略仍然具有挑戰性 [39, 218],尤其是在自動駕駛 [110] 和疾病診斷或慢性治療 [139] 等高風險場景中。由于模擬器(用于策略學習)和現實(用于策略部署)之間存在差距,即所謂的“模擬-到-現實”差距,這些現實世界的問題很難從 RL 方法中獲益。

模擬-到-現實的差距是在策略訓練過程中引入的,并在部署執行中被放大。因此,訓練有素的強化學習策略會遭受嚴重的真實世界性能下降。在最壞的情況下,考慮到未見過場景下的不可預測決策,甚至存在潛在的安全隱患。一些研究人員將此歸因于模擬環境和現實環境之間的轉換差距,并提出從轉換動力學 [217] 來解決這一差距的幾個方面,例如域隨機化和域自適應等。也有文獻討論在感知或執行期間引入的差距,并提出落地學習(grounded learning)的方法 [188]。不同的研究人員正在分別研究特定的領域 [46, 82, 91, 232],一些見解應該統一,而專業則應該在特定域討論。此外,隨著大型基礎模型的爆炸式發展 [138, 231],各種有效的方法被提出將基礎模型的推理能力整合到下游任務中 [137],其對強化學習方法的模擬-到-現實遷移具有巨大的潛力。

下表是本綜述和其他的比較:

image.png

下圖是本綜述結構:

image.png

強化學習是一種特殊的機器學習范式,它使智體能夠從環境中的交互中學習決策策略,學習由接收伴隨動作而來的反饋(獎勵)來指導。為了最大化累積獎勵,使用各種學習算法迭代改進策略。

一般來說,上述 RL 學習過程通常在滿足形式數學建模的馬爾可夫決策過程 (MDP) M 上定義 [70],其中image.png

如圖所示Sim-to-Real 問題概述。RL 中的四個關鍵 Sim-to-Real (Sim2Real) 差距,源于模擬環境 (Env-Sim) 和真實環境 (Env-Real) 之間的差異。動作差距image.png源于系統機械狀態image.png或動作空間粒度image.png的差異。獎勵差距image.png是由于系統之間的獎勵函數不匹配以及動作image.png 的粒度不匹配而產生的。下一狀態差距image.png反映模擬環境image.png的過渡動態與現實世界動態image.png相比的不準確性。最后,觀察差距image.png來自不完整的感知模塊image.png或表示不匹配image.png。這些共同定義了 RL 中的 Sim-to-Real 挑戰。

image.png

觀測

彌補強化學習中的模擬到現實 (sim2real) 差距需要解決觀測數據的差異,特別是由于攝像頭和觸覺傳感器等傳感器模式的變化而產生的差異。如圖所示,已經開發出各種策略來緩解這些差異 [155]:

image.png

域隨機化,通過在模擬環境中引入廣泛的變化來增強策略魯棒性,使智體能夠有效地泛化到各種現實世界場景 [207]。

域自適應,通過調整特征分布來彌合模擬域和現實域之間的差距,確保在模擬中訓練的策略在現實環境中表現一致 [216]。

傳感器融合,集成來自多個傳感器的數據,以提供全面可靠的環境感知 [21],從而彌補單個傳感器的局限性,多個觀察為感知提供更好的基礎,從而緩解 Sim-to-Real 問題。

基礎模型,通過利用 VLM 提供進一步的任務級描述,并將此類語義信息編碼到智體的觀察中,從而增加世界描述 [240]。

動作

采取動作是實施任何主動控制政策的關鍵步驟,并能使環境產生影響。緩解 Sim-to-Real 問題的三個主要動作方面如圖所示:

image.png

動作空間尺度。動作對環境的影響最為直接。然而,由于模擬器的限制,它們通常會被離散化或簡化,以減少保真度的設計工作量。最常見的情況是離散(模擬)到連續(真實)的差距。

動作延遲。模擬器中動作采取的另一種理想化是動作通常會立即發生。然而,在現實世界中,它大多伴隨著延遲 [58, 64, 255]。多個領域都在解決延遲動作問題,例如網絡管理 [85, 124, 125, 198],它處理實時阻塞或調度的不切實際問題。在能源領域,[8, 202] 在不影響數據及時流動的情況下管理能源。在強化學習方法中考慮此類延遲變量是實際部署前的重要一步。

動作不確定性。采取動作不可避免地會涉及不確定性。即使是經過良好學習的策略也可能遇到未見過的情景,這使得現實世界的決策具有挑戰性。結合不確定性量化,為模擬器訓練的策略泛化到更廣泛的現實世界場景帶來了巨大好處。不確定性增強的動作有兩個方面:動作建議和動作魯棒 RL。

基礎模型。由于基礎模型是在海量語料庫上訓練的,并且表現出強大的零樣本能力,因此它們被用于解決在未見過或罕見場景的行動中普遍性的挑戰。

轉換

在 Sim-to-Real 挑戰中,模擬系統和真實系統之間的轉換動態差異,會嚴重損害策略部署性能,正如探索中所展示的 [46],有四類通過彌合轉換動態差距來解決 Sim-to-Real 問題的方法:

  • 域隨機化:

  • 域自適應:

  • 落地方法:通過落地動作調整模擬器動態,使其與現實世界動態保持一致。

  • LLM-增強方法:

總之,解決 Sim-to-Real 中的轉換動態差異,需要結合傳統方法(例如域隨機化、域自適應和基礎方法)以及新興的 LLM 增強策略。這些方法共同增強 RL 策略的穩健性和適應性,從而促進在實際應用中更有效的部署。

獎勵

在強化學習 (RL) 中,獎勵函數的設計對于有效的策略學習至關重要,尤其是在從模擬環境遷移到真實環境 (Sim-to-Real) 時。為了應對 Sim-to-Real 場景中與獎勵函數相關的挑戰,人們探索兩類主要技術:獎勵塑造和基于 LLM 的獎勵設計。

獎勵塑造技術專注于修改獎勵函數,以提供更具信息性和更密集的反饋,從而更有效地引導智體朝著期望的行為發展。這些方法在 Sim-to-Real 環境中特別有用,因為模擬環境和真實環境之間的差異可能會阻礙學習。

大語言模型 (LLM) 的出現為 RL 中的獎勵函數設計自動化和優化開辟新途徑,特別是對于需要細微獎勵結構的復雜任務。這些技術利用 LLM 的生成和推理能力來解決 Sim-to-Real 場景中的獎勵設計挑戰。

總之,解決 Sim-to-Real 場景中的獎勵函數設計挑戰既需要獎勵塑造等傳統技術,也需要利用 LLM 的創新方法。這些方法增強模擬訓練與現實世界部署之間的一致性,從而提高 RL 策略的穩健性和有效性。

模擬-到-現實遷移是強化學習 (RL) 應用中普遍存在的挑戰,每個研究領域都采用專門的模擬器和基準來應對其獨特的現實世界復雜性。每個領域的不同研究重點如表所示:

image.png

“模擬器”和 Sim-to-Real“基準”如表所示:

image.png

三種常見的Sim-to-Real方法評估方法,從成本、安全性、真實感三個維度的比較如圖所示:

image.png

模擬-到-真實環境:模擬-到-真實評估,涉及將模擬中訓練的策略直接部署到現實世界的物理系統上。這種設置對于需要現實世界交互的領域至關重要,例如機器人技術和自動駕駛汽車。它可以從真實環境中接收實時的實際反饋,但由于學習策略(尤其是神經網絡)的意外行為,它不是大多數驗證實驗的理想策略。

模擬-到-縮小版真實環境:由于安全、成本和容錯方面的考慮,大多數評估配置不會直接在現實世界中發生,而是設計專門的縮小版測試平臺來促進這些評估,確保安全性和可靠性。例如,在機器人技術中,配備運動捕捉系統和安全措施的物理測試環境允許對機器人策略進行受控測試 [4]。同樣,自動駕駛汽車測試可以利用復制真實駕駛條件的封閉軌道來評估模擬訓練 [165]。

模擬-到-模擬設置:由于與真實世界測試相關的高成本和實際挑戰,模擬-到-模擬評估通常被用作初步步驟。在這種情況下,在一個模擬環境中訓練的策略將在不同的、通常更現實或多樣化的模擬中進行測試。這種方法允許研究人員評估強化學習狀態在不同條件下的魯棒性和泛化能力,而無需承擔真實世界部署的費用和風險。例如,在訓練和測試模擬之間改變物理參數、傳感器噪聲或環境動態可以深入了解策略如何很好地遷移到現實 [101]。

選擇適當的評估設置和指標對于準確評估強化學習中的模擬到現實轉移至關重要。模擬-到-模擬評估,即在不同的模擬環境中評估智體,提供一種經濟有效的方法來衡量潛在的真實世界表現。另一方面,模擬-到-現實的評估直接評估了智體在實際場景中的表現,從而提供對其適用性的明確見解。將這些評估設置與穩健的指標相結合,可以全面評估智體彌補模擬-到-現實差距的能力。雖然一些研究 [105, 106, 212] 試圖用模擬中的表現來預測現實世界的表現,但預測性仍然在很大程度上依賴于特定的指標。

常見的評估測度如下表所示:

image.png

A Survey of Sim-to-Real Methods in RL--Progress, Prospects and Challenges with Foundation Models 2502.13187v2.pdf

END

改編自CSDN-三谷秋水

底.png

下一篇: 大語言模型中的邏輯推理:綜述
上一篇: HiRT:利用分層機器人Transformer 增強機器人控制
相關文章
返回頂部小火箭