深度強化學習驅動的自動駕駛運動規劃:建模方法與場景化應用
摘要
如近年來,自動駕駛車輛領域的學術研究受到了廣泛關注,涉及傳感器技術、車與萬物通信(V2X)、安全性、保密性、決策制定、控制等多個主題,甚至包括法律和標準化規則。除了經典的控制設計方法外,人工智能和機器學習方法幾乎應用于所有這些領域。另一部分研究集中在運動規劃的不同層面,如戰略決策、軌跡規劃和控制。機器學習領域本身已發展出多種技術,本文將介紹其中之一 —— 深度強化學習(DRL)。本文深入探討了分層運動規劃問題,闡述了深度強化學習的基礎。設計此類系統的主要要素包括環境建模、建模抽象、狀態描述與感知模型、合理的獎勵機制以及底層神經網絡的實現。文章還描述了車輛模型、仿真可能性和計算需求,展示了不同層級的戰略決策和觀測模型(如連續和離散狀態表示、基于網格和基于攝像頭的解決方案)。本文按自動駕駛的不同任務和級別(如跟車行駛、車道保持、軌跡跟蹤、匯入車流或密集交通環境行駛等)對最新解決方案進行了系統綜述。最后,討論了該領域尚未解決的問題和未來的挑戰。
一、引言
自動駕駛車輛功能的運動規劃是一個廣泛且長期研究的領域,采用了多種方法,如不同的優化技術、現代控制方法、人工智能和機器學習。本文呈現了近年來該領域中基于深度強化學習(DRL)方法的研究成果。深度強化學習結合了經典強化學習與深度神經網絡,在 Deepmind 發表突破性論文后受到廣泛關注。過去幾年中,關于自動駕駛車輛和深度強化學習的研究論文數量大幅增加(見圖1)。由于不同運動規劃問題的復雜性,評估深度強化學習在這些問題中的適用性是一個合適的選擇。

圖1、科學網主題搜索“深度強化學習”和“自動駕駛汽車”
(一)自動駕駛運動規劃的分層分類
將深度神經網絡應用于自動駕駛汽車,有望開發出 “端到端” 解決方案。該系統的工作方式類似人類駕駛員:輸入包括行駛目的地、道路網絡知識和各種傳感器信息,輸出則是直接的車輛控制指令(如轉向、扭矩和制動)。然而,一方面,實現這種方案相當復雜,因為它需要處理駕駛任務的所有層級;另一方面,系統本身如同一個黑箱,這會引發設計和驗證方面的問題。從該領域近期的進展來看,大多數研究集中于解決分層運動規劃問題的某些子任務。如文獻所述,自動駕駛的決策系統至少可分解為四個層級(見圖2)。

圖2、運動規劃的層次
路線規劃作為最高層級,基于道路網絡地圖確定行駛路線點,并可利用實時交通數據。盡管最優路線選擇是研究界的熱點,但涉及該層級的論文并未采用強化學習方法。關于該主題的全面研究可參見文獻。
行為層是自動駕駛的戰略層級。在給定路線點的情況下,智能體(agent)會考慮局部道路拓撲結構、交通規則和其他交通參與者的感知狀態,制定短期策略。針對駕駛場景,智能體有一組有限的可用動作,因此該層級的實現通常是一個有限狀態機,其狀態包含基本策略(如跟車行駛、車道變換等),并根據環境變化在這些狀態之間進行明確的轉換。然而,即使完全了解當前交通狀態,周圍駕駛員的未來意圖仍然未知,這使得該問題具有部分可觀測性。因此,未來狀態不僅取決于自車(ego vehicle)的行為,還依賴于未知過程,該問題由此構成部分可觀測馬爾可夫決策過程(POMDP)。已有多種技術可減輕這些影響,例如通過預測其他道路使用者的可能軌跡 —— 文獻中作者使用了高斯混合模型,文獻 中則基于記錄的交通數據訓練了支持向量機和人工神經網絡。由于有限動作空間的部分可觀測馬爾可夫決策過程是強化學習問題建模的自然方式,因此大量研究論文圍繞該層級展開,這將在本文后續章節中詳細介紹。
為執行行為層定義的策略,運動規劃層需要設計一條可行的軌跡,該軌跡包含車輛在短時間范圍內的期望速度、橫擺角和位置狀態。自然地,該層級必須考慮車輛動力學特性,因此經典的精確運動規劃解決方案并不實用,因為它們通常假設車輛具有完整動力學特性(holonomic dynamics)。長期以來,人們已知解決非完整動力學(nonholonomic dynamics)運動規劃問題的數值復雜度為多項式空間算法(PSPACE),這意味著通過實時求解非線性規劃問題來制定整體解決方案難度較大。另一方面,該層級的輸出表示形式使得難以直接用 “純” 強化學習處理,僅有少數論文專門研究該層級,且這些論文通常使用深度強化學習來定義樣條曲線作為訓練結果。
在最低層級,局部反饋控制負責最小化與規定路徑或軌跡的偏差。本文綜述的大量論文涉及該任務的各個方面,其中車道保持、軌跡跟蹤或跟車行駛是較高層級的策略。盡管在該層級,動作空間是連續的,但經典強化學習方法無法處理連續動作空間,因此需要對控制輸出進行離散化處理,或者如部分論文所示,使用深度強化學習的連續變體。
(二)強化學習
作為人工智能和機器學習的一個分支,強化學習(RL)研究的是智能體在環境中學習如何實現目標的問題。與監督學習不同(監督學習中學習者會獲得好壞行為的示例),強化學習智能體必須通過試錯來發現如何行為才能獲得最大獎勵 [12]。為完成這一任務,智能體必須在一定程度上感知環境狀態,并基于這些信息采取能導致新狀態的動作。智能體的動作會帶來獎勵,這有助于其改進未來的行為。為了最終構建問題模型,還需要基于智能體的動作對環境的狀態轉移進行建模。這就形成了由(S, A, T, R, Ω, O)函數定義的部分可觀測馬爾可夫決策過程(POMDP),其中 S 是環境狀態集合,A 是特定狀態下的可能動作集合,T 是基于動作的狀態轉移函數,R 是給定(S, A)對的獎勵,Ω 是觀測集合,O 是傳感器模型。在這一背景下,智能體可通過任何推理模型實現,其參數可根據獲得的經驗進行調整。在深度強化學習中,該模型由神經網絡實現。
部分可觀測馬爾可夫決策過程場景下的問題在于,當前動作會影響未來狀態,進而影響未來獎勵。這意味著,為了優化整個情節(episode)的累積獎勵,智能體需要了解其動作的未來后果。強化學習有兩種確定最優行為的主要方法:基于價值的方法和基于策略的方法。
基于價值的方法的原始概念是文獻中提出的深度 Q 學習網絡(DQN)。簡要來說,智能體為每個狀態 - 動作對預測一個所謂的 Q 值,該值表示期望的即時獎勵和未來獎勵。智能體可從這些 Q 值中選擇具有最高值的動作作為最優策略,或在訓練過程中利用這些值進行探索。其主要目標是學習最優 Q 函數(在該方法中由神經網絡表示)。這可以通過進行實驗、計算每個動作未來狀態的折扣獎勵,并使用貝爾曼方程作為目標更新網絡來實現。若使用同一網絡進行價值評估和動作選擇,在噪聲環境中會導致行為不穩定且學習速度緩慢。元啟發式方法(如經驗回放)可解決這一問題,同時也存在原始 DQN 的其他變體,例如雙 DQN(Double DQN)或競爭 DQN(Dueling DQN),它們將動作預測和價值預測流分離,從而實現更快、更穩定的學習。
基于策略的方法旨在直接選擇最優行為,其中策略 π_θ 是(S, A)的函數。該策略由神經網絡表示,帶有 softmax 輸出層,智能體通常會預測動作期望收益的歸一化概率。在最自然的實現中,該輸出整合了強化學習過程的探索特性。在高級變體(如演員 - 評論家算法)中,智能體對價值和動作進行不同的預測 [16]。最初,強化學習算法使用有限動作空間,但對于許多控制問題而言,這并不適用。為解決這一問題,文獻提出了深度確定性策略梯度(DDPG)智能體,其中 “演員”(actor)直接將狀態映射到連續動作。
對于復雜問題,學習過程可能仍然漫長甚至無法成功,這一問題可通過多種方式解決:
· 課程學習(Curriculum learning):訓練從任務的簡單示例開始,然后逐漸增加難度,文獻采用了這種方法。
· 對抗性學習(Adversarial learning):旨在通過惡意輸入欺騙模型。
基于模型的動作選擇(如 Alpha-Go 中基于蒙特卡洛樹搜索(MCTS)的解決方案):可減少遠距離獎勵帶來的問題。

圖3、基于深度強化學習的自動駕駛POMDP模型
由于強化學習將問題建模為部分可觀測馬爾可夫決策過程(一種離散時間隨機控制過程),解決方案需要提供一個數學框架,用于在結果部分隨機、部分受決策者控制且狀態部分可觀測的情況下進行決策。對于自動駕駛或高度自動化車輛的運動規劃,部分可觀測馬爾可夫決策過程的元組(S, A, T, R, O)如圖 3 所示,其解釋如下:
S、A、T 和 R 描述了馬爾可夫決策過程(MDP),即學習過程的建模環境。它們可能因目標而異,但在本文所述場景中,需要對車輛動力學、周圍靜態和動態物體(如其他交通參與者)、道路拓撲結構、車道標線、交通標志和交通規則等進行建模。S 表示仿真的當前實際狀態,A 是駕駛自車的智能體的可能動作集合,而狀態轉移函數 T 會根據車輛的動作更新車輛狀態和交通參與者的狀態。不同的抽象層級將在第二節 第一 部分描述。許多研究論文使用不同的軟件平臺進行環境建模,第二節第二部分將簡要介紹所使用的部分框架。R 是馬爾可夫決策過程的獎勵函數,第二節第四部分將對此主題進行總結。
Ω 是智能體在環境中可獲得的觀測集合,而 O 是觀測函數,它給出了可能觀測的概率分布。在較簡單的情況下,研究假設完全可觀測性,并將問題表述為馬爾可夫決策過程(MDP),但在許多情況下,車輛并非擁有所有信息。另一個有趣的主題是狀態觀測的表示,這是深度強化學習智能體架構選擇和性能的關鍵因素。文獻中使用的觀測模型將在第二節第五部分進行總結。
(三)多智能體強化學習
如前所述,運動規劃的較低層級(如軌跡跟蹤或簡單控制任務)不需要與行為依賴于自車的其他智能體進行交互。然而,在較高層級,當車輛處于復雜場景(如賽車、通過交叉路口、匯入車流或交通環境行駛)時,其他參與者的反應會極大地影響可用選擇和可能結果。這就引出了多智能體系統(MAS)領域,當采用強化學習技術處理該領域問題時,被稱為多智能體(深度)強化學習(不同文獻中簡稱 MARL 或 MDRL)。多智能體強化學習的一種建模方法是對原始部分可觀測馬爾可夫決策過程進行泛化,為每個智能體擴展多個動作和觀測集合,甚至在不同智能體有不同目標的情況下擴展多個獎勵。這種方法被稱為分散式部分可觀測馬爾可夫決策過程(DEC-POMDP)。
自然地,該領域的一些問題仍然可以通過單智能體方法處理:一種是將所有其他智能體嵌入到預先定義的、具有預定義或基于規則行為的模型中,為單個智能體創建獨立的學習環境;另一種是采用完全獨立的學習者,其中所有其他智能體僅作為實際學習者環境的一部分。但這種方法存在風險 —— 找到的策略可能會過擬合于環境中其他智能體的策略,從而無法很好地泛化。
與單智能體強化學習問題相比,多智能體強化學習面臨更多額外問題,因為它在數值和技術上更為復雜,且存在許多概念性問題需要處理。首先是 “博弈” 的性質,即它是合作性的還是競爭性的,這極大地影響獎勵分配(即獎勵的計算和分配)。零和博弈通常導致競爭性場景,因為一個智能體的收益必然意味著另一個智能體的損失。在車輛運動規劃問題中,賽車就是此類多智能體系統問題的一個例子。此外,還存在明顯的合作性問題,即只有所有參與者都成功才算任務完成。某些交通場景可以從這兩種角度考慮,例如在交叉路口或高速公路行駛場景中,可以訓練智能體以實現個體最短行駛時間,或所有智能體的平均最短行駛時間。即使意圖明確,獎勵分配也并非易事,可能會導致不同的學習動態或意想不到的結果。
智能體知識或任務的異質性也是一個設計方面的問題。即使所有智能體的個體目標相同,它們的行為也未必需要相似。此外,在某些場景(如匯入車流)中,智能體具有不同的任務:已在目標車道行駛的車輛需要決定是否為匯入車輛調整車距,而匯入車輛的智能體則需要導航至該目標車距。
這引出了與單智能體系統相比的最后一個顯著差異:在多智能體系統中,智能體有機會通過消息傳遞或內存共享進行通信。這種設置通常假設環境是部分可觀測的,且智能體之間是合作關系,其目的有兩個:一是傳遞其他智能體無法觀測到的信息;二是傳遞預期行為以實現更好的聯合性能。這兩種目的在駕駛場景中都具有實際意義,例如在高速公路車隊行駛中,每輛車的雷達只能感知前方最近的車輛,但如果能獲得前方所有車輛的信息,以及它們的預期制動或加速意圖,車輛就能做出更好的反應。多智能體系統中的通信是一個相對較新的領域,已取得了一些有前景的成果,但仍存在許多未解決的問題。
最后,多智能體強化學習有不同的訓練方案,主要類別如下:
1. 集中式控制器方法:為所有智能體的所有觀測和動作建立一個聯合模型。從理論上講,這可能是一種最優方法,但本質上是單個智能體控制多個智能體。另一方面,隨著智能體數量的增加,動作空間的復雜度呈指數增長,使得探索變得極其困難。
2. 并發學習方法:每個智能體都有自己的策略、私有觀測和動作空間。這種方法適用于異質性任務,但也存在缺點:每個智能體都有自己的學習過程,因此總體學習資源需求(內存、計算量)隨智能體數量線性增長;此外,由于智能體的策略會根據其他智能體的行為進行調整,學習動態可能會變得循環(類似簡單的石頭剪刀布游戲)。
3. 參數共享方法:智能體開發一個共同的策略,同時結合各自的獨特經驗。這并不意味著智能體行為完全相同,因為每個智能體的狀態和觀測可能不同,且這種方法的資源消耗相對較低。
二、強化學習建模
(一)車輛建模
自車運動建模是訓練過程的關鍵部分,因為它需要在模型準確性和計算資源之間進行權衡。由于強化學習技術需要大量情節來確定最優策略,環境的步長時間(很大程度上取決于車輛動力學模型的評估時間)會深刻影響訓練時間。因此,在環境設計過程中,需要從最簡單的運動學模型到更復雜的動力學模型中進行選擇,這些動力學模型包括 2 自由度(2DoF)橫向模型,以及參數數量更多、輪胎模型更復雜的高階模型。
剛性運動學單軌車輛模型忽略了輪胎滑移,其橫向運動僅受幾何參數影響,因此通常適用于低速場景。最簡單的包含縱向和橫向運動的動力學模型基于 3 自由度(3DoF)動態自行車模型,通常采用線性輪胎模型,其獨立變量為縱向速度(Vx)、橫向速度(Vy)和橫擺角速度(?)。更復雜的模型是 9 自由度(9DoF)四輪胎車輛模型,除了 3 自由度模型的參數外,還考慮了車身側傾、俯仰以及四個車輪的角速度(ωfl、ωfr、ωrl、ωrr),以更精確地計算輪胎力。因此,該模型既考慮了縱向和橫向滑移的耦合,也考慮了輪胎間的載荷轉移。
盡管運動學模型看似相當簡化,且如文獻所述,此類模型的行為可能與實際車輛存在顯著差異,但對于許多控制場景而言,其準確性已足夠。根據文獻,使用橫向加速度限制在約 0.5g 或以下的運動學自行車模型可提供良好的結果,但僅適用于干燥路面的假設。當橫向加速度超過該限制時,該模型無法處理動力學特性,因此在涉及較高加速度(需將車輛動力學推向操控極限)的場景中,應使用更精確的車輛模型。
關于計算時間,基于運動學模型,3 自由度模型的計算量可能是其 10-50 倍,而帶有非線性輪胎模型的 9 自由度模型的精確計算量可能是其 100-300 倍,這也是強化學習領域傾向于使用低抽象層級模型的主要原因。
交通和周圍車輛的建模通常通過使用特定的仿真器完成(見第二節第二部分)。部分作者使用元胞自動機模型開發自己的環境;部分作者使用 MOBIL 模型(一種通過最小化車道變換引起的整體制動來推導適用于各類跟車模型的自由車道變換和強制車道變換規則的通用模型);還有部分作者使用智能駕駛模型(IDM)—— 一種連續的微觀單車道模型。
(二)仿真器
一些作者會創建自定義環境以實現對模型的完全控制,但也有一些商業和開源環境可提供此功能。本節簡要介紹近年來在基于強化學習的運動規劃研究中使用的部分仿真器。
在交通環境建模中,最受歡迎的選擇是 SUMO(城市交通仿真器),它是一個微觀、多模式、空間連續且時間離散的交通流仿真平臺。它可以轉換來自其他交通仿真器(如 VISUM、Vissim 或 MATSim)的網絡,也可以讀取其他標準數字道路網絡格式(如 OpenStreetMap 或 OpenDRIVE),并提供與多種環境(如 Python、Matlab、.Net、C++ 等)的接口。盡管其抽象層級為微觀,且車輛行為受到限制,但易用性和高速性使其成為訓練智能體處理交通場景的理想選擇,不過除了車輛的真實狀態外,它不提供任何傳感器模型。
另一個在商業和研究中都廣泛使用的微觀仿真器是 VISSIM,文獻中使用它來開發跟車行為和車道變換決策。
僅考慮車輛動力學時,最受歡迎的選擇是 TORCS(開源賽車仿真器),它是一個現代化、模塊化、高度可移植的多玩家、多智能體汽車仿真器。其高度的模塊化和可移植性使其成為人工智能研究的理想選擇。它與最流行的人工智能研究環境 Python 的接口便捷,且運行速度可接受,還提供了不同的賽道、競爭機器人和多種傳感器模型。
對于車輛動力學仿真,專業工具(如 CarSIM或 CarMaker)本應是最佳選擇,但在強化學習文獻中并未發現這些軟件的應用。這可能是因為它們是昂貴的商業平臺,更重要的是,它們缺乏 Python 接口,且高精度但資源密集型的模型使其無法在合理時間內運行多個情節。
對于更詳細的傳感器模型或交通場景建模,作者通常使用 Airsim、Udacity Gazebo/ROS 和 CARLA:
· Airsim 最初是為無人機開發的仿真器,基于虛幻引擎(Unreal Engine)構建,目前已擴展到車輛仿真,支持不同的天氣條件和場景,文獻中的近期研究使用了該仿真器。
· Udacity 仿真器是為 Udacity 自動駕駛汽車納米學位項目開發的,提供了多種傳感器(如高質量渲染的攝像頭圖像、激光雷達(LIDAR)和紅外信息),并能夠對其他交通參與者進行建模,文獻中使用了該仿真器。
· 另一個值得一提的是 CARLA,一個用于自動駕駛研究的開源仿真器。CARLA 專為支持自動駕駛城市駕駛系統的開發、訓練和驗證而設計,除了開源代碼和協議外,還提供了專門為此目的創建的開放數字資產(城市布局、建筑物、車輛),可免費使用。該仿真平臺支持傳感器套件和環境條件的靈活配置。
盡管本節僅對仿真器進行了簡要描述,但文獻中提供了該主題的更系統綜述。
(三)動作空間
動作空間的選擇在很大程度上取決于之前每項研究中為強化學習問題設計的車輛模型和任務,但主要存在兩個控制層級:一是通過轉向、制動和加速指令直接控制車輛;二是作用于行為層,定義戰略層級的選擇(如車道變換、車道保持、設置自適應巡航控制(ACC)參考點等)。在該層級,智能體向低層級控制器發出指令,由低層級控制器計算實際軌跡。僅有少數論文涉及運動規劃層,該層級的任務定義了端點(x, y, θ),智能體通過訓練確定軌跡的節點(以樣條曲線表示),如文獻所示。此外,還有少數論文偏離了車輛運動限制,通過網格步進來生成動作,類似經典的基于元胞自動機的微觀模型。
部分論文通過分離縱向和橫向任務來結合控制層和行為層,例如文獻中,縱向加速度是直接指令,而車道變換是戰略決策。
行為層通常有幾個不同的選擇,底層神經網絡需要從中進行選擇,這使其成為具有有限動作的經典強化學習任務。
然而,在控制層級,車輛的執行器(即轉向、油門和制動)是連續參數,許多強化學習技術(如 DQN 和策略梯度(PG))無法處理連續動作空間,因為它們需要有限的動作集合,而部分技術(如 DDPG)則適用于連續動作空間。為了適應所使用的強化學習技術對有限動作的要求,大多數論文將轉向和加速指令離散化為每個通道 3 到 9 個可能的選項。可能的選擇數量較少會使解決方案與現實存在較大差距,可能導致車輛動力學問題(如不可控滑移、劇烈沖擊和橫擺角速度),但在論文中,運動學模型的使用有時會掩蓋這些問題。然而,大量的離散選擇會導致部分可觀測馬爾可夫決策過程方法中可能結果的指數級增長,從而減慢學習過程。
(四)獎勵機制
在訓練過程中,智能體試圖完成一項通常包含多個步驟的任務,該任務被稱為一個情節(episode)。當滿足以下條件之一時,情節結束:
· 智能體成功完成任務;
· 情節達到預先定義的步驟數;
· 出現終止條件。
前兩種情況較為簡單,取決于具體問題的設計。終止條件通常是指智能體進入無法完成當前任務的狀態,或做出不可接受的錯誤。車輛運動規劃智能體通常使用的終止條件包括與其他參與者或障礙物碰撞、駛離軌道或車道,因為這兩種情況都會不可避免地導致情節結束。還有一些較寬松的方法,在事故發生前就以失敗為由終止情節,例如車輛與軌道的切線角過大,或與其他參與者距離過近。這些 “事故前” 終止條件通過將失敗信息提前,加快了訓練速度,但設計時需要謹慎。
獎勵機制的作用是評估智能體在情節中做出的選擇的優劣,提供反饋以改進策略。獎勵的時機是第一個重要方面,強化學習解決方案的設計者需要選擇以下策略的組合(每種策略都有其優缺點):
· 僅在情節結束時給予獎勵,并將其折扣回之前的(S, A)對。這種方式可能導致學習過程較慢,但最大限度地減少了人為對策略的塑造。
· 通過評估當前狀態在每個步驟給予即時獎勵。這種解決方案中自然也存在折扣因子,能顯著加快學習速度,但即時獎勵的選擇會極大地影響所建立的策略,有時會阻礙智能體開發出比設計獎勵所預期的更優整體解決方案。
· 中間解決方案:在預先定義的時間段或行駛距離內,或在做出良好或不良決策時給予獎勵。
在運動規劃領域,情節結束時的獎勵根據駕駛任務的完成情況或失敗情況計算。總體性能因素通常包括:完成任務的時間、保持期望速度或實現盡可能高的平均速度、與車道中心線或期望軌跡的橫擺角或距離、超越更多車輛、盡可能減少車道變換次數、靠右行駛等。獎勵系統還可以體現乘客舒適性,通過強制車輛動力學的平穩性來實現。最常用的定量指標包括縱向加速度、橫向加速度和沖擊度(jerk)。
在部分研究中,獎勵基于與數據集的偏差,或計算為與參考模型的偏差。這些方法可以提供良好的結果,但在一定程度上偏離了強化學習的原始理念,因為學習過程可能會受到預先已知策略的指導。
(五)觀測空間
觀測空間向智能體描述環境,需要提供足夠的信息以幫助智能體選擇適當的動作。因此,根據任務的不同,觀測空間包含以下信息:
· 車輛在環境中的狀態(如位置、速度、橫擺角等);
· 拓撲信息(如車道、標志、規則等);
· 其他參與者(周圍車輛、障礙物等)。
觀測的參考系可以是絕對的,固定在世界坐標系中,但由于決策過程以自車為中心,選擇以自車坐標系、自車在世界中的位置或道路方向為基準的自車中心參考系更為簡便。這使得狀態分布在位置、航向和速度空間中集中在原點附近(因為其他車輛通常靠近自車,且速度和航向相似),從而減少了策略必須運行的狀態空間區域。
1. 車輛狀態觀測
對于車道保持、導航、簡單賽車、超車或機動任務,自車最常用且最簡單的觀測包括連續變量(|e|, v, θe),分別描述車輛與車道中心線的橫向位置、車輛速度和橫擺角(見圖 4)。這些信息是指導類車車輛的絕對最小值,僅適用于經典運動學類車模型(該模型假設車輛運動無滑移)。盡管在許多文獻中這些信息已足夠(因為車輛保持在動態穩定區域內),但對于必須考慮更復雜車輛動力學的任務(如賽車場景或車輛穩定性至關重要的場景),這組可觀測狀態是不夠的,需要擴展橫擺、俯仰、側傾、輪胎動力學和滑移等信息。

圖4、車輛基本狀態觀察
2. 環境觀測
獲取車輛周圍環境信息并將其呈現給學習智能體的方式在文獻中存在很大差異,可觀察到不同層級的傳感器抽象:
· 傳感器層級:將攝像頭圖像、激光雷達或雷達信息傳遞給智能體;
· 中間層級:提供理想化的傳感器信息;
· 真實狀態層級:提供所有可檢測和不可檢測的信息。
傳感器模型的結構也會影響深度強化學習智能體的神經網絡結構,因為類圖像或類數組輸入需要二維或一維卷積神經網絡(CNN)結構,而簡單的標量信息集合則適用于簡單的全連接網絡(DNN)。在某些情況下,這兩種類型的輸入會混合使用,因此網絡需要有兩個不同類型的輸入層。
基于圖像的解決方案通常使用從三維仿真器中提取的前置攝像頭圖像來表示觀測空間。數據以(C×W×H)大小的矩陣形式組織,其中 C 是通道數(強度圖像通常為 1 通道,RGB 圖像為 3 通道),W 和 H 分別是圖像的寬度和高度分辨率。在某些情況下,為了檢測運動,會將多個圖像并行輸入到網絡中。有時為了數據和網絡壓縮,會對圖像進行下采樣,例如文獻中采用(1×48×27)的分辨率,文獻中采用(3×84×84)的分辨率。由于圖像中的信息是非結構化的(即物體位置或車道信息等狀態信息被深度編碼在數據中),深度神經網絡(如卷積神經網絡)通常需要大量樣本和時間才能收斂。隨著強化學習過程需要大量步驟,這一問題會進一步加劇,導致學習過程漫長,例如文獻中需要 150 萬步,文獻中需要 1 億步。
許多基于圖像的解決方案提出了某種數據預處理方法來克服這一問題。文獻中,作者提出了一種基于視覺的橫向控制框架,結合了深度學習(DL)和強化學習(RL)方法。為了提高感知精度,提出了一種多任務學習(MTL)卷積神經網絡模型,用于學習關鍵的軌道特征(這些特征用于確定車輛在軌道坐標系中的位置),并訓練了一個策略梯度強化學習控制器來解決連續的序列決策問題。自然地,這種方法也可以被視為具有結構化特征的強化學習解決方案,但這種組合方法在基于圖像的解決方案中也占有一席之地。
另一種方法是簡化非結構化數據。文獻中,Kotyan 等人使用連續兩幀之間的背景減法得到的差分圖像作為輸入,假設該圖像包含前景的運動信息,底層神經網絡會更關注前景特征而非背景特征。使用相同的訓練算法,他們的結果表明,使用差分圖像代替原始未處理輸入,達到相同性能所需的訓練步驟約減少 10 倍。第二種可能性是,不將原始圖像作為輸入,而是將其通過圖像語義分割網絡處理,如文獻中所提出的:“語義圖像包含的信息比原始圖像少,但包含了智能體采取動作所需的大部分信息。換句話說,語義圖像忽略了原始圖像中無用的信息。” 這種方法的另一個優點是,訓練后的智能體可以使用來自真實世界場景的圖像的分割輸出,因為在這個層級,仿真數據和真實世界數據之間的差異比仿真圖像和真實世界圖像之間的差異小得多。圖 5 展示了該研究中使用的 640×400 分辨率輸入。

圖5、來自駕駛數據的真實圖像及其語義分割
近年來的研究中,二維或三維激光雷達類傳感器模型并不常見,盡管它們可以提供良好的類深度圖環境信息。但與攝像頭圖像一樣,它們提供的數據(二維激光雷達為向量,三維激光雷達為矩陣)是非結構化的。這種類型的輸入僅在文獻中出現,其中觀測模擬了一個二維激光雷達,在 150° 的視場角內提供 31 個方向上到障礙物的距離,智能體將傳感器數據作為其狀態。文獻中使用了一種類似的輸入結構(但并非建模激光雷達,因為沒有反射),該結構由 TORCS 提供,通過虛擬光束傳感器來表示車道標線。文中的智能體使用 19 個傳感器的讀數(探測范圍為 200 米,在車輛前半部分每 10° 布置一個),返回至軌道邊緣的距離。
基于網格的路徑規劃方法(如 A * 算法或各種同步定位與地圖構建(SLAM)算法)已廣泛應用于移動機器人導航領域,該領域中環境被表示為空間地圖,通常表述為二維矩陣,為表面網格中的每個二維位置分配三種可能值之一:占用、空閑和未知。這種方法也可用于表示周圍車輛的概率機動,或通過從預測的運動序列生成時空地圖,實現動態環境中的運動規劃。盡管前面引用的示例并未使用強化學習技術,但它們證明了網格表示在該領域的巨大潛力。文獻中提出了一種使用網格地圖作為觀測(結合車輛的位置和橫擺角)的強化學習智能體,用于靜態環境中的導航(見圖 6)。網格地圖也是非結構化數據,其復雜度與語義分割圖像相似,因為兩者的單元格都存儲類別信息,因此最優處理方式是使用卷積神經網絡架構。

圖6、從車輛的角度來看,周圍環境可以用粗略的感知圖來描述,其中目標由紅點(c)表示
在網格中表示移動物體(即周圍車輛)不僅需要占用信息,還需要其他信息,因此空間網格的單元格需要包含額外信息。文獻中,作者使用等距網格,自車位于中心,其他車輛占用的單元格表示對應車輛的縱向速度(見圖 7)。文獻中也采用了相同的方法。自然地,這種簡單表示無法提供其他交通參與者的橫向運動信息,但比僅基于占用的表示提供了更多信息。等距網格是通用環境的合理選擇,其中移動機器人的移動方向不受限制,但對于道路車輛而言,車輛主要沿交通流方向行駛。在這種情況下,可以選擇固定于道路拓撲結構(即道路車道,無論其曲率或寬度如何)的空間表示。在這些基于車道的網格解決方案中,表示高速公路的網格行數與實際車道數相同,車道沿縱向離散化。文獻中展示了這種方法的最簡單應用,其中單元格長度等于單位車輛長度,交通行為類似經典的基于元胞自動機的微觀模型。

圖7、HDM映射過程的可視化
與等距網格類似,這種表示也可用于占用情況,但仍然不包含車輛動力學信息。文獻中,將多個連續的交通快照輸入到底層卷積神經網絡結構中,該結構本質上提取移動物體的速度。在這種設置下,也可以在網格單元格中表示速度,例如文獻中,作者將從 Udacity 仿真器中提取的交通信息轉換為基于車道的網格。
除了周圍車輛的位置和縱向速度外,其他特征(如航向、加速度、橫向速度)對于決策制定也很重要。為克服這一問題,可以為每個關鍵參數使用多層網格地圖。文獻中,作者處理仿真器狀態以計算大小為 4×3×(2× 視場角(FoV)+1) 的觀測張量,其中視場角表示以單元格數為單位的最大觀測距離。四個通道(第一維)分別對應道路占用情況、車輛的相對速度、相對橫向位移和相對于自車的相對航向。圖 8 展示了仿真器狀態及其對應的網絡輸入觀測示例。

圖8、模擬器狀態(頂部,放大)轉換為4 x 3 x(2 x FoV+1)輸入觀測張量(底部)
前面提到的觀測模型(基于圖像、激光雷達或網格)都有一些共同特性:它們都是非結構化數據集,需要卷積神經網絡架構進行處理,這增加了學習過程的難度,因為智能體需要同時提取感興趣的特征并形成動作策略。顯然,對非結構化數據進行預處理并將結構化信息輸入到智能體網絡中是更優選擇。結構化數據是指位于記錄或文件中固定字段內的任何數據。例如,在交通環境中導航時,根據任務的不同,周圍車輛的參數在輸入中位于相同的元素位置。在最簡單的跟車場景中,智能體僅關注前車,除自車狀態外,輸入還包括(d, v)或(d, v, a),其中這些參數分別是車間距、速度和前車加速度。與非結構化數據相比,這些方法顯著減少了輸入數據量,且可通過簡單的全連接網絡(DNN)處理,這極大地影響了智能體性能的收斂速度。
對于在交通環境中導航(即執行匯入或車道變換機動)的場景,不僅需要考慮前車狀態,還需要考慮其他周圍車輛的狀態。在匯入場景中,最關鍵的信息是限定目標車距的兩輛車的相對縱向位置和速度 2×(dx, dv),文獻中使用了這些信息。自然地,這是此類問題的絕對最小表示,但未來將開發更復雜的表示方式。在高速公路機動場景中,需要考慮自車車道和相鄰車道的車輛,文獻中,作者使用上述 6×(dx, dv) 標量向量表示三個相關車道中的前后車輛。而文獻中,作者將該信息擴展為自車側面相鄰車道的占用情況(見圖 9)。文獻中也采用了相同的方法,但將追蹤對象的數量擴展到 9 個。這些研究缺乏橫向信息,而文獻中,輸入向量還包含橫向位置和速度,形成 6×(dx, dy, dvx, dvy) 結構,分別表示相對于自車的縱向和橫向距離以及速度差異。在處理無信號交叉路口的特殊情況下,作者也采用了這種表述方式,考慮了其他車輛的笛卡爾坐標、速度和航向。

圖9、高速公路上的環境狀況
三、基于場景的方法分類
盡管本文綜述的重點是基于深度強化學習的運動規劃研究,但需要提及的是,部分論文嘗試通過經典強化學習技術解決自動駕駛的某些子任務。這些經典方法的一個問題是無法處理非結構化數據(如圖像、中層雷達或激光雷達傳感數據);另一個問題是需要維護所有(S, A)狀態 - 動作對的 Q 表,這會導致空間復雜度爆炸,因為 Q 表的大小等于狀態和動作中所有類別的大小的乘積。例如,文獻中提出的 Q 學習方法:作者在 TORCS 中訓練了一個智能體,試圖利用空氣動力學阻力實現最優超車策略。該場景中僅有兩個參與者(超車車輛和前車),行駛在長直軌道上。
狀態表示包括兩輛車的縱向和橫向距離、自車的橫向位置以及兩輛車的速度差。作者將該狀態空間離散化為大小分別為(6, 10, 8, 9)的類別(見表 1),并使用最小的橫向動作集合(大小為 3),動作包括向左或向右偏移 1 米以及保持橫向位置。綜上,該問題生成的 Q 表包含 6×10×8×9×3=12960 個元素。盡管如今這樣大小的表格可以輕松處理,但不難想象,對于更復雜的問題(涉及更多車輛、更多傳感器、復雜動力學、更密集的狀態和動作表示),Q 表的大小會變得極其龐大。一種可能的簡化方法是利用多目標強化學習方法,將整體問題分解為子任務,文獻中就采用這種方法解決超車機動問題。在后續研究中,作者擴展了該問題,將駕駛問題分解為避撞、目標追蹤、車道保持、車道選擇、速度保持和穩定轉向等任務。為了減小問題規模,文獻的作者使用戰略層級決策為車輛設定相對于周圍車輛的運動目標,并將低層級控制留給經典解決方案,這顯著減小了動作空間。

表 1、文獻中的狀態表示離散化
經典 Q 學習的另一個有趣示例在文獻中描述,作者設計了一個智能體,用于考慮障礙物的阿克曼轉向地面車輛的路徑規劃問題。該智能體使用(v, x, y, θ)(速度、位置和航向)作為狀態表示,并將強化學習用作優化器(見圖 10)。

圖10、路徑規劃結果
盡管人們可能期望機器學習能為自動駕駛提供端到端的整體解決方案,但對近期文獻的研究表明,強化學習研究只能為該問題的某些子任務提供答案。近年來的論文圍繞這些問題展開,選擇特定的場景或情境,研究自學習智能體是否能夠解決這些問題。這些問題的復雜程度各不相同。如前所述,強化學習的復雜性(進而影響訓練時間)在很大程度上取決于所選問題的復雜性、動作空間的性質以及獎勵的及時性和合理表述。最簡單的問題(如車道保持或跟車行駛)通常可以歸結為簡單的凸優化或控制問題,而在這些情況下,表述次要控制目標(如乘客舒適性)更為容易。在復雜程度的另一端,存在一些問題(如在密集交通環境中機動),這些問題的有效完成難以表述,智能體需要具有預測性的 “思考” 才能實現目標。以下將介紹這些方法。
(一)跟車行駛
跟車行駛是本文綜述中最簡單的任務,問題表述如下:仿真中有兩個參與者(前車和跟車),均保持在車道內的橫向位置,跟車通過調整縱向速度來保持安全的跟車距離。觀測空間由(v, dv, ds)元組組成,分別表示智能體速度、與前車的速度差和車間距。動作是加速指令。獎勵系統自然地將兩輛車的碰撞視為失敗,而智能體的性能基于沖擊度、碰撞時間(TTC)或乘客舒適性來評估。文獻中展示了另一種方法,其中跟車智能體的性能通過與真實世界測量數據進行比較來評估,以實現類人駕駛行為。
(二)車道保持
車道保持或軌跡跟蹤仍然是一個簡單的控制任務,但與跟車行駛不同,該問題側重于橫向控制。這些研究中的觀測空間采用兩種不同的方法:一種是車輛在車道內的 “真實狀態” 橫向位置和角度;另一種是前置攝像頭的圖像。自然地,對于基于圖像的控制,智能體使用外部仿真器(這些情況下使用 TORCS 和 GAZEBO/ROS)。獎勵系統幾乎總是將車輛與車道中心線的距離作為即時獎勵。需要提及的是,這些智能體幾乎不考慮車輛動力學,且令人驚訝的是,它們并不關注縱向和橫向的聯合控制。
(三)匯入車流
匝道匯入問題涉及高速公路入口場景(見圖 11),自車需要在兩輛車之間找到可接受的車距以駛入高速公路。最簡單的方法是學習縱向控制,使智能體到達該位置,如文獻所示。其他論文則使用完整的轉向和加速控制。文獻中,動作控制車輛的縱向運動(加速和減速),在執行這些動作時,自車保持在車道內;“向左變道” 和 “向右變道” 動作意味著橫向運動。每次僅執行一個動作,且動作需完整執行,車輛無法提前中止動作。

圖11、斜坡合并:(a)模擬場景和(b)現實世界位置
文獻中提出了一個有趣的補充,其中周圍車輛的行為不同,存在合作型和非合作型駕駛員。他們在訓練智能體時考慮了合作行為,并將結果與三種不同構建的蒙特卡洛樹搜索(MTCS)規劃器進行了比較。完全信息蒙特卡洛樹搜索自然優于強化學習,但計算成本高昂。作者采用課程學習方法訓練智能體,逐漸增加交通密度。他們指出:“當直接在密集交通環境中訓練強化學習智能體時,策略會收斂到一個次優解決方案,即停留在匯入車道上不動,而不利用其他駕駛員的合作性。這種策略可以避免碰撞,但無法完成匯入機動。”
文獻對該問題進行了最詳細的描述:“駕駛環境被訓練為長短期記憶網絡(LSTM)架構,以整合歷史和交互駕駛行為對動作選擇的影響。深度 Q 學習過程將長短期記憶網絡的內部狀態作為 Q 函數逼近器的輸入,利用更多的歷史信息進行動作選擇。Q 網絡參數通過經驗回放進行更新,并使用第二個目標 Q 網絡來緩解局部最優和不穩定性問題。” 通過這種方法,研究人員試圖結合行為預測和學習的可能性,同時實現更好的性能。
多智能體匯入場景通常僅使用縱向控制來找到安全車距,并將橫向運動留給底層控制方案。從這個角度來看,匝道匯入和一些交叉路口通過問題有很多共同之處,因此本節將討論與匝道匯入和交叉路口相關的多智能體強化學習(MARL)。
第一個示例來自文獻,場景是環形交叉路口(在拓撲結構上類似于出入口匝道問題)。該研究使用同質的非通信智能體,采用參數共享的異步優勢演員 - 評論家(A3C)學習器。觀測空間包括自車狀態和場景的鳥瞰圖網格(在三個通道中表示要遵循的路徑、拓撲結構和動態物體)。自然地,這種設置需要異構輸入神經網絡:用于網格的卷積神經網絡和用于狀態值的全連接網絡,以及三個離散選擇(加速、保持速度和制動)。文獻中進行了一項有趣的比較,通過多個場景評估了延遲和單智能體 / 多智能體方法的影響,其中一個場景是無信號交叉路口,四個智能體左轉。通過將先前動作集合擴展到部分可觀測馬爾可夫決策過程中,處理了延遲感知問題。該研究應用了連續的縱向加速指令,并使用了文獻中的多智能體深度確定性策略梯度(MADDPG),采用集中式評論家(critic)和分散式演員(actor)架構。
文獻中研究了多車道交叉路口,除了縱向離散動作外,還應用了車道變換動作。研究人員使用了文獻中的 “COIN”(一種基于參數共享表的即時獎勵強化學習方法)。然而,如前所述,此類問題對于表格型 Q 學習器而言過于復雜,因此作者使用 K 近鄰(KNN)技術進行函數逼近,以處理偶爾出現的、所有動作都未經過訓練的稀有狀態。文獻中提出了另一種表格型 Q 學習方法,用于基于單元格轉換模型的雙智能體匯入場景。這種表示足夠小,可以求解,但無法擴展和泛化。
在匯入場景中,最復雜的是雙匯入場景:兩條多車道高速公路交匯后又分離,智能體從兩個入口駛入,也從兩個出口駛出。該問題的首次研究是文獻中提出的 CM3 算法示例,其中兩個人工智能控制的智能體在 SUMO 仿真器中與其他周圍車輛一起執行這種匯入動作。由于雙匯入問題具有相當大的危險性,使用簡單的強化學習技術難以解決。文獻中,基于策略梯度(PG)的學習器提供縱向和橫向期望目標,但由基于規則的監督系統確保其安全性。
(四)交通環境行駛
近年來論文中研究的最復雜場景是自動駕駛智能體在交通環境中行駛。自然地,該任務的復雜程度也可以通過網絡拓撲結構、周圍車輛的數量和行為、交通規則的應用以及許多其他特性來調整。因此,當前幾乎所有解決方案都涉及高速公路行駛場景,該場景中沒有交叉路口和行人,所有車道的交通流方向相同。該場景的子任務(如車道保持或跟車行駛)已在前面的章節中討論過。以下將介紹兩種類型的高速公路行駛:首先概述分層方法(智能體在行為層動作,制定車道變換或超車決策,并使用經典控制方法通過底層控制器執行這些動作);其次介紹端到端解決方案(智能體通過轉向和加速直接控制車輛)。隨著問題變得更加復雜,需要提及的是,經過訓練的智能體只能解決其在仿真中接觸過的場景類型。因此,設計的仿真交通環境必須涵蓋預期場景至關重要。
在行為層制定決策至少包括三個離散動作:保持當前車道、向左變道和向右變道,如文獻所示。在該論文中,作者將自車的速度和車道位置的真實狀態信息,以及八個周圍車輛的相對位置和速度作為觀測空間。他們在三種觀測噪聲類別(無噪聲、中等噪聲(5%)和高噪聲(15%))下訓練和測試智能體,并表明在噪聲較高的訓練環境中訓練出的智能體性能更穩健可靠,且通過使用帶有 tanh 激活函數的、隱藏層為 64、128、128、64 的深度 Q 網絡(DQN),其性能也優于基于規則的 MOBIL 模型。在非常相似的環境和觀測空間中,文獻使用了更廣泛的動作集合來執行車道變換(包括先前的加速或接近目標車距),產生了六種不同的動作(見表 2)。他們還得出結論,使用兩個卷積層和一個全連接層的深度 Q 網絡(DQN)智能體的性能與基于智能駕駛模型(IDM)和模型的參考模型相當或更優。在同一作者的另一篇論文中,動作空間略有變化,將加速指令改為增加和減少自適應巡航控制(ACC)設定點,并讓底層控制器執行這些動作。

表 2、文獻中的動作空間
文獻中考慮了雙車道場景,以進一步分配分層決策:首先,深度 Q 網絡(DQN)做出 “是否變道” 的二元決策;隨后,另一個 Q 網絡根據先前的決策負責縱向加速。因此,第二層與經典控制模塊(如純追蹤控制)相結合,輸出適當的控制動作以調整車輛位置。文獻中也考慮了上述雙車道場景,但作者使用了類演員 - 評論家的學習智能體。
自動駕駛中的一個有趣問題是訓練智能體的合作行為。文獻中,作者考慮了三車道高速公路場景,使用基于車道的網格表示作為觀測空間,并使用包含四個動作的簡單元組(左、右、加速、無動作),通過獎勵函數實現合作和非合作行為。獎勵函數中不僅考慮了自車的經典性能指標,還考慮了周圍交通的速度(這自然會受到智能體行為的影響)。底層網絡使用兩個卷積層(16 個大小為(2,2)的補丁濾波器,采用 ReLU 激活函數)和兩個全連接層(每個層有 500 個神經元)。為了評估合作行為的影響,作者通過仿真中的虛擬環路收集交通數據,并在經典的流量 - 密度圖中可視化由此產生的交通性能(見圖 12)。結果表明,合作行為導致更高的交通流量,從而提高了高速公路容量并減少了整體行駛時間。

圖12、不同策略下虛擬回路檢測到的流量密度關系
端到端解決方案的模型真實性可能仍然存在差異。例如,文獻中,作者沒有使用非完整的阿克曼轉向幾何結構,而是為動作空間使用了完整的機器人模型,這極大地降低了控制問題的復雜性。他們的動作包括加速、減速、向左變道、向右變道和無動作,其中前兩個動作應用最大加速和減速,而兩個變道動作僅使用恒定速度的橫向運動。他們使用競爭深度 Q 網絡(Dueling DQN)和優先經驗回放,結合基于網格的觀測模型。文獻中使用了類似的控制方法和非完整運動學。該研究的重要性在于它在學習過程中考慮了安全方面:通過使用類似模型預測控制(MPC)的安全檢查,智能體避免采取會導致碰撞的動作,這使得訓練更快、更穩健。
使用非完整運動學需要加速和轉向指令。文獻中,作者使用周圍車輛結構化信息的連續觀測空間和策略梯度(PG)強化學習結構來實現端到端駕駛。由于所使用的方法具有離散動作空間,需要對轉向和加速指令進行量化。通過端到端解決方案在交通環境中駕駛的復雜性可以通過智能體所需的訓練情節數量來很好地體現:在簡單的車道保持場景中,智能體只需數百個情節即可完成任務,而這些問題中使用的智能體需要 30 萬個情節。
部分論文也提出了將多智能體方法應用于 “交通環境導航” 場景。文獻中,作者使用了一個簡單的離散三車道高速公路模型,采用簡單的選擇,展示了在單智能體方法中訓練的車輛如何在多智能體環境中失敗,因為它必須與具有相同策略的智能體打交道。但研究也表明,單智能體是在多智能體強化學習(MARL)設置中開始訓練的良好初始網絡。
如前所述,集中式控制可能是一種解決方案,但隨著智能體數量的增加,其復雜性呈指數增長。文獻中,作者提出了利用所謂的協調圖(CG)技術,該技術將全局收益函數分解為局部收益函數的線性組合。例如,展示了基于身份的協調圖(I-DCG)和基于位置的協調圖(P-DCG)分離方法,其中圖的邊僅處理相應智能體動作的笛卡爾積。文獻中,作者使用 MIT-Deeptraffic(一種微觀戰略級仿真器,環境中共有 20 輛車,最多允許對 11 輛車進行智能控制,其余車輛隨機選擇動作),尋求相同問題的答案,并比較了兩種場景:將單個交通智能體的模型應用于多個智能體(遷移學習策略)和純多智能體強化學習(MARL)方法。
文獻中,作者提出了一種周期性參數共享結構,智能體周期性地共享參數,但保持各自的策略,這可能源于與競爭深度 Q 網絡(Dueling DQN)相同的思路。在他們的示例中,兩個智能體執行合作式靜態避障。該研究使用混合網格和自車狀態觀測,因此采用了卷積神經網絡(CNN)/ 全連接網絡(DNN)。結果與純參數共享和完全獨立訓練進行了比較,表明在該特定情況下,這種折中的方法比原始智能體表現更好。
也有研究小組將注意力從單智能體強化學習轉向多智能體強化學習(MARL)。文獻中,作者在 TORCS 環境中尋求競爭性超車的解決方案,隨后在文獻中將研究擴展到多智能體。他們使用一個簡單的參數共享深度確定性策略梯度(DDPG),但為兩個不同的任務訓練智能體:第一個任務僅獎勵車道保持,第二個任務還獎勵比賽排名。“任務” 作為二進制信息注入觀測空間,使單個智能體能夠學習相同的策略。因此,基于觀測向量中接收到的指令,同一個智能體可以表現出競爭性或合作性。
最后,文獻中提出了一種并非純粹強化學習而是模仿學習的方法,將生成對抗模仿學習(GAIL)與參數共享信任區域策略優化(PS-TRPO)相結合,以實現多智能體環境中的模仿學習,稱為 PS-GAIL。對于該框架,智能體需要示范數據,這些數據來自下一代仿真(NGSIM)數據集。
四、未來挑戰
該領域近期的研究成果表明,不同的深度強化學習技術可有效應用于自動駕駛車輛運動規劃的不同層級問題,但仍有許多問題尚未解決。這些方法的主要優勢在于能夠處理非結構化數據,例如原始或經過輕微預處理的雷達或基于攝像頭的圖像信息。
在運動規劃中使用由強化學習智能體訓練的深度神經網絡,其主要優點之一是訓練后的網絡計算需求相對較低。然而,這一特性需要在學習階段進行大量試驗以獲取足夠的經驗。如前所述,對于簡單的凸優化問題,該過程的收斂速度較快,但對于復雜場景,訓練可能很快達到數百萬步,這意味著一組超參數或獎勵假設的設置可能需要數小時甚至數天時間。由于復雜的強化學習任務需要在環境設計、網絡結構、獎勵機制甚至所用算法本身方面進行持續迭代,因此設計這樣的系統是一項耗時的工作。除了適當的結果分析和推理外,評估時間在很大程度上取決于所分配的計算能力。基于此,如今大多數論文都致力于解決運動規劃問題的次要子任務,而像城市交通環境導航這樣最復雜的場景在文獻中尚未出現,這并不令人意外。與許多啟發式算法一樣,強化學習本身在性能和資源需求之間存在權衡。車輛控制的性能不僅包括行駛時間、平均速度或乘客舒適性,更重要的是安全性和穩健性。強化學習在這兩個領域面臨諸多挑戰,下文將概述這兩個主要問題。
(一)安全性
將神經網絡和深度學習技術用作汽車系統中的通用函數逼近器引發了若干問題。例如,安全駕駛需要多少訓練數據?如文獻所述,電子控制單元(ECUs)中實現的汽車應用功能開發需遵循原始設備制造商(OEM)的專有規范和多項國際標準,例如汽車軟件過程改進和能力評定(Automotive SPICE)和 ISO 26262。然而,這些標準尚未針對深度學習制定專門的表述,因為該領域的驗證和確認問題尚未得到解決。部分論文通過使用底層安全層來處理這些問題,該安全層在車輛控制系統執行規劃軌跡之前驗證其安全性。然而,在復雜場景中,這種方式無法保證全面的功能安全覆蓋。
強化學習的主要目標是從統計角度最大化長期獎勵,但對于車輛控制任務而言,首要目標是預防事故。由于強化學習并不一定能阻止使用會導致大量負獎勵的動作,因此需要其他方法來處理這些風險。文獻中以多種形式探討了安全性和風險問題,文獻對此進行了出色的總結。該領域主要有兩個方向:一類解決方案包括使用優化準則的方法;另一類包含修改探索過程的算法。修改優化準則有多種選擇:
1. 最壞情況準則:通過考慮最壞情況,解決由系統隨機波動性和參數不確定性引起的問題。
2. 風險敏感準則:在這種情況下,向損失函數添加一個標量參數(即風險敏感參數)以控制風險水平。
3. 約束馬爾可夫決策過程(constrained MDP):擴展標準馬爾可夫決策過程元組,添加策略函數必須滿足的約束集。
與假設智能體從零開始學習的經典探索策略不同,修改探索過程是一種可行的選擇。在車輛控制應用中,經典探索策略通常會導致災難性情況。此外,完全無意識的探索策略會浪費大量時間探索底層狀態空間的無關區域,這在大型連續狀態空間中尤為重要。修改探索過程主要有兩個方向:
1. 應用外部智能引導探索過程:使用人類演示者的有限演示集,然后可以進一步優化這些演示集,創建初步的價值函數(這種方法類似于模仿學習);演示者還可以通過在線展示狀態空間中有趣或危險的部分來引導探索;最后,如文獻 [99] 所示,可以通過監督控制方案滿足硬約束。
2. 使用風險估計。
已有部分研究致力于通過強化學習實現更安全的駕駛:
· 文獻中,作者結合深度確定性策略梯度(DDPG)算法和人工勢場,開發了一種安全的車道保持和避撞算法。
· 文獻中提出了一種頗具啟發性的方法,作者還訓練了一個移動機器人進行避撞,結合了探索修改和課程學習方法,從低速機動開始,不斷提高任務難度。為此,他們提出了一種依賴不確定性的成本函數來估計碰撞風險,并在仿真器和真實機器人上演示了訓練過程。
· 文獻的作者提供了一個安全高速公路駕駛的示例,通過兩種方式提高安全性:一方面,創建了一個學習安全模式的模塊,該模塊基于初步駕駛數據工作,并使用遠期預測;另一方面,基于常見駕駛實踐開發了一個啟發式手工設計的安全模塊,確保最小跟車距離。他們在不同交通密度的仿真中演示了結果。
· 文獻中提出了一種所謂的 “并行約束策略優化” 方法,并在兩個場景中進行了演示。該方法通過第三個神經網絡對風險函數進行逼近,擴展了通用的演員 - 評論家結構,并在車道保持和交叉路口通行仿真中展示了結果。
總體而言,安全強化學習理論是一個動態發展的領域。除了上述綜述文章外,感興趣的讀者可以在文獻中找到每種解決方案的理論細節。從車輛控制的角度來看,該主題的重要性毋庸置疑,不僅關乎安全性,還關乎狀態和動作空間的縮減。訓練和驗證的一大問題是從大量無關場景中選擇有問題的所謂極端情況(corner cases)。
(二)仿真到現實的遷移(Sim2Real)
通過分析近期文章的觀測元素可以發現,大多數研究忽略了復雜的傳感器模型。部分論文使用 “真實狀態” 環境表示或 “理想” 傳感器模型,僅有少數文章考慮了傳感器噪聲。一方面,將從理想觀測中獲得的知識應用于現實世界存在若干可行性問題;另一方面,如文獻所述,使用帶噪聲或有誤的模型實際上可能會產生更穩健的智能體。
環境建模也是如此,在高速公路學習智能體群體中表現得最為明顯 —— 道路拓撲結構幾乎總是固定的,且周圍車輛的行為受到限制。這些智能體的驗證通常在相同的環境設置中進行,這與機器學習的基本技術相矛盾(機器學習中訓練和驗證場景應在某些方面有所不同)。由于強化學習智能體通常只能在與其經驗相近的場景中表現良好,因此至關重要的是專注于開發更真實、更多樣化的環境,包括對所有交互交通參與者的建模,以實現易于遷移到現實世界應用的智能體。這適用于車輛動力學建模,需要更多樣化和更真實的建模。自然地,這些改進會增加環境模型的數值復雜度,這是這些應用中的主要問題之一。
在本綜述評估的研究中,所有問題都是在仿真環境中訓練的。僅有一個例外:文獻中,作者使用連續、無模型的深度強化學習算法深度確定性策略梯度(DDPG),通過擴展功能顯著減少了訓練所需的情節數,在真實車輛上訓練智能體進行車道保持。
在該領域中,使用仿真作為強化學習訓練工具的原因有很多:
1. 可以獲得更多樣本,因為仿真比真實實驗更快、更便宜(節省燃料、人員和設備成本)。
2. 安全性高,因為強化學習的試錯式學習在真實交通中無法保證安全。
自然地,在強化學習中使用仿真也存在缺點:
1. 建模和識別問題:許多仿真器為了平衡計算資源而建模不足。與現實世界的差異可能來自觀測或車輛動力學方面:傳感器可能過于精確、可靠,或提供完整狀態的真實值(這在現實世界場景中無法實現);或者相反,可能缺乏細節(這通常是提供攝像頭信息的渲染視覺環境的情況)。
2. 仿真中學習的策略無法遷移到現實世界,這通常被稱為 “現實差距” 或 “仿真到現實的差距(sim2real gap)”。即使底層馬爾可夫決策過程假設成立,處理此類問題也很困難;而當環境變為部分可觀測,或出現多個動作無法預測的活躍智能體時,這種差距會進一步擴大。在真實交通仿真中,幾乎(如果不是完全)不可能涵蓋所有可能的情況。
表3總結了使用仿真進行強化學習訓練的主要優缺點。由于現實差距較大,所開發算法的真實車輛測試無法保證安全性。此外,還會出現許多可行性問題,例如成本、自動化、設備和測試場地等。這些因素共同導致大多數研究停留在仿真層面,僅有少數研究能提供現實世界應用,且都存在一定限制:
· 文獻中,車道選擇算法的決策在雙車道高速公路上進行展示,但未將完全控制權交給算法。
· 文獻的停車導航算法在封閉停車場中進行了示例演示。
文獻中開發的車道變換機動在封閉測試軌道上進行了評估。

表3、使用仿真進行強化學習訓練的優缺點
通常,有三種方法可以縮小現實差距:
1. 系統識別:嘗試使仿真與現實匹配。
2. 領域自適應:旨在從源數據分布(仿真)中學習一個在不同(但相關)目標數據分布(現實)上表現良好的模型。
3. 領域隨機化:旨在在高度隨機化的環境(仿真)中學習,該環境(可能)涵蓋目標(現實),使智能體具有穩健性。
這三個概念如圖 13 所示。前文已討論過完全建模系統與可行性之間的權衡,因此本文不再概述系統識別。在領域自適應過程中,需要找到仿真和真實表示之間的遷移技術。例如,對于從前置攝像頭獲取的圖像序列,可以通過語義分割圖像解決這種遷移:
· 文獻中,兩個領域在分割層面達成一致。
文獻中,作者嘗試通過生成對抗網絡(GAN)創建用于訓練的 “真實” 圖像。自然地,這種方法依賴于生成對抗網絡的訓練數據,無法保證完全覆蓋。
強化學習建模、車輛建模、獎勵機制、車輛狀態觀測

圖13、sim2real傳輸的三種方法的概念圖
許多研究表明,強化學習智能體通常會過擬合于其訓練環境,甚至開發出在現實應用中完全無法使用的策略。領域隨機化除了提高穩健性外,還是一種泛化或正則化技術。然而,隨著隨機化可能維度的增加,其可擴展性問題變得嚴重;另一方面,如文獻所述,過多的隨機化會導致智能體采取保守策略。盡管本綜述介紹的大多數研究都使用了某種隨機化(多個軌道、隨機初始化或目標等),但這些遠未涵蓋真實駕駛的所有可能情況。基于上述原因,仿真到現實的遷移(sim2real)是該領域未來的關鍵研究問題之一。
總體而言,該領域仍有許多問題需要解決,例如環境和傳感器建模的細節、計算需求、向現實應用的遷移性、智能體的穩健性和驗證等。由于這些問題的存在,強化學習本身不足以作為汽車運動規劃的工具,但通過與其他方法結合,它可以高效地解決復雜的優化任務。

(添加微信號NewCarRen咨詢)
