亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出

Sce2DriveX 框架:多模態 MLLM 與思維鏈推理推動類人自動駕駛的跨場景泛化

三谷秋水 2025-03-10

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

2025年2月來自中科院軟件所和中科院大學的論文“Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning”。

端到端自動駕駛是具身智能的重要組成部分,它將原始傳感器輸入直接映射到低級車輛控制。盡管在應用多模態大語言模型 (MLLM) 進行高級交通場景語義理解方面取得成功,但將這些概念語義理解有效地轉化為低級運動控制命令并在跨場景駕駛中實現泛化和共識仍然具有挑戰性。Sce2DriveX,是一種類似人類駕駛思維鏈 (CoT) 推理 MLLM 框架。Sce2DriveX 利用從局部場景視頻和全局 BEV 地圖中進行的多模態聯合學習來深入理解遠范圍時-空關系和道路拓撲,增強其在 3D 動態/靜態場景中的綜合感知和推理能力,并實現跨場景駕駛泛化。在此基礎上,重構人類駕駛中固有的隱性認知鏈,涵蓋場景理解、元-動作推理、行為解釋分析、運動規劃和控制,從而進一步彌合自動駕駛與人類思維過程之間的差距。為了提升模型性能,開發一個針對 3D 空間理解和長軸任務推理的視覺問答 (VQA) 駕駛指令數據集。

具身智能使自動駕駛 (AD) 模型等智體具備實時感知、推理和與現實世界交互的能力。然而,核心挑戰在于自動駕駛模型框架的泛化和共識。一方面,自動駕駛學習框架可能難以概括復雜、動態的交通場景,如多變的天氣條件、道路布局、交通語義和周圍參與者的行為偏好。另一方面,自動駕駛系統的決策策略往往與人類駕駛員的認知過程不一致,使人類對系統行為的理解變得復雜。這些挑戰源于高級場景語義理解和低級運動控制命令之間的差距。因此,開發一個能夠全天候、全場景感知和推理的類人框架成為一個廣泛討論的話題。

目前的自動駕駛研究通常采用小模型學習框架 (Zeng et al., 2019; Hu et al., 2022; 2023)。由于小模型的推理能力有限,這些系統對預定義的問題做出嚴格的響應,因此在面對新的或意外的查詢時很難提供令人滿意的結果。

最近,MLLM(Li et al.,2023;Liu et al.,2024;Driess et al.,2023)的快速發展已在各種視覺-語言任務中顯示出顯著的優勢。通過利用 MLLM 作為高級場景語義理解和低級運動控制命令之間的橋梁,可以解決AD模型中的泛化和共識挑戰。得益于對大量跨模態和跨學科數據的預訓練,MLLM提供強大的推理和泛化能力,使其能夠管理不同的場景并增強自適應跨場景駕駛。此外,MLLM強大的文本查詢和認知能力,使得它們能夠將駕駛思維與人類共識結合起來,將復雜的推理轉化為可理解的自然語言,為自動駕駛提供統一的解釋層。但自動駕駛是一項復雜的任務,具有時空連續性、動態場景和全局協調性等特點。目前基于MLLM的自動駕駛研究,主要以單幀正面場景圖像(Sima,2025)作為感知輸入,對時空關系和道路特征缺乏深入理解,對交通場景理解不足。此外,目前研究在生成駕駛指令時,往往僅將場景因素映射到低級控制信號上(Xu,2024),忽略未來車輛行為背后的推理,未能利用MLLM的廣義認知推理能力,與人類的駕駛思維相背離。

除了模型框架之外,匹配的數據集對于模型的高效訓練和性能上限也至關重要。許多數據集都是以 VQA 的形式設計,盡管取得一些成功,但在現有 VQA 數據集上訓練的模型,在解決 AD 的復雜性方面仍然存在局限性。這種限制主要源于交通場景和 VQA 數據集之間視覺信息的差異 [9, 10],要求模型有效利用多模態感知數據的互補信息來理解復雜場景并從多幀數據流中捕捉物體動態。此外,大多數 VQA 數據集都是針對單一駕駛任務定制的。它們通常只提供簡單的邏輯布爾答案(即是或否)或在封閉式問題注釋中有限的多項選擇題答案(Qian et al., 2024),缺乏豐富性。

本文提出 Sce2DriveX 框架(如圖左所示),使用模態編碼器將多視角場景視頻和 BEV 地圖圖像的視覺表示對齊到統一的視覺特征空間,然后通過共享投影映射到文本嵌入空間,并由 LLM 主干處理生成自然語言響應,包括場景理解、行為分析、運動規劃和車輛控制。圖中部分是VQA數據集,用于 3D 空間理解和長軸任務推理,重點關注多模態、多視圖和多幀環境下的分層場景理解和可解釋的端到端駕駛任務。圖右是訓練流水線,包括混合對齊預訓練、場景理解微調、端到端駕駛微調三階段。

image.png

See2DriveX 框架

本文旨在開發一個類似人類的 CoT 推理 MLLM 框架,實現從多視角長距離場景理解行為分析、運動規劃和車輛控制駕駛過程的漸進式推理學習。如圖所示,See2DriveX 由四個組件組成:1)模態編碼器,包括視頻編碼器和圖像編碼器,由 OpenCLIP 初始化;2)共享投影,使用兩個帶有 GeLU 激活的全連接層;3)LLM 主干,采用 Vicuna-v1.5-7b;4)文本編碼器和文本解碼器,由 LLaMA 提供。

image.png

多模態聯合訓練

給定文本指令 X_T,首先使用字節-對編碼 (BPE) token化器將單詞分割成相對常見的子詞,每個子詞對應一個唯一的 logit。然后,使用文本編碼器對這些 logit 進行編碼。

給定多視角場景視頻 X_V 和 BEV 圖的圖像 X_I,T 為視頻幀數,(H, W) 為原始圖像分辨率,C為通道數,采用塊掩碼方法。通過使用編碼器掩碼 M_e,選擇并分割一小部分塊,以緩解模態編碼器中 token 數量過多的問題。具體而言,首先通過具有非重疊濾波器的塊嵌入層將視頻信號 X_V 和圖像信號 X_I 轉換為相應的塊 P_V 和 P_I,其中 N = H×W/B^2 為 p 塊的數量,B 為每個塊的大小。然后,將位置嵌入應用于可見的 token,并使用編碼器掩碼對其進行劃分。

最后,使用視頻編碼器 f_V_E 對視頻序列 S_V 進行編碼,使用圖像編碼器 f_I_E 對圖像序列 S_I 進行編碼。為了實現多模態語義對齊,采用 LanguageBind(Zhu et al.,2023a)的模態編碼方法,該方法使用文本作為不同模態之間的橋梁。通過對比學習原理,將其他模態綁定到文本模態,并緊急對齊到統一的視覺特征空間。

LLM 主干支持的統一處理

目標是將多模態 tokens 映射到文本嵌入空間,為 LLM 提供統一的視覺表示,然后將其與 token 化的文本查詢相結合,并輸入到 LLM 主干中以生成響應。具體來說,首先使用共享投影 f_P 來映射視頻 tokens H_V 和圖像 tokens H_I。

接下來,統一的視覺 token H_L 與文本 token H_T 相結合,并輸入到 LLM 主干 f_LLM 進行處理,生成相應的預測 token。這些預測 token 最終由文本解碼器 f_T_D 解碼回自然語言響應 Z。Z ∈ {Z_sce , Z_act , Z_int , Z_mot , Z_sig } 包括場景理解Z_sce、元動作推理Z_act、行為解釋分析Z_int、運動規劃Z_mot、控制信號生成Z_sig。

綜上所述,Sce2DriveX 能夠理解遠距離時空關系和道路拓撲結構,增強 3D 場景感知和推理能力,實現跨場景駕駛泛化,并還原人類駕駛的認知鏈,加強自動駕駛與人類思維的一致性。

VQA駕駛數據集

為了訓練 Sce2DriveX,本文構建一個 VQA 駕駛指導數據集,用于 3D 空間理解和長軸任務推理。它基于開源 nuScenes(Caesar et al.,2020),集成三種模態的結構化數據:多視角場景視頻(局部)、BEV 圖的圖像(全局)和多輪 QA 注釋。如圖所示,數據集包括兩個子集:1)分層場景理解數據集;2)可解釋的端到端駕駛數據集。

image.png

分層場景理解

分層場景理解數據集通過可擴展的自動化流程生成,提供交通場景的分層、結構化描述。它涵蓋天氣、道路、設施和交通參與者(3D),挑戰模型的 3D 空間理解。上圖顯示其構建過程,包括分層場景開發、問題集和答案模板設計、多輪 QA 生成和手動后處理。

為了增強模型對長尾場景的識別,開發一個分層場景系統 E 來分層描述交通場景,涵蓋四個元素:E = {E_weather,E_road,E_facility,E_participant}。每個元素都有多個屬性。此外,其構建一個場景圖來可視化分層場景系統。如上圖(右)所示,該圖通過結構化關系增強視覺場景:中心節點代表自車,中間節點代表四個場景元素,最外層節點表示它們的屬性。節點通過表示動作(動詞)或空間關系(介詞)的邊連接。

基于分層場景系統,圍繞每個場景元素手動設計四個問題集:Q = {Q_weather,Q_road,Q_facility,Q_participant}。

使用場景圖,手動設計四個與問題集相匹配的答案模板 A = {A_weather, A_road, A_facility, A_participant},并結合各種參數化屬性。遍歷場景圖的節點和邊,將它們轉換為 [元素-關系-屬性] 三元組,并為每個三元組編寫固定文本。

用 ChatGPT 的自動流水線來生成多輪 QA 注釋。一個關鍵挑戰是幻覺,即文本與視覺效果不匹配。為了緩解這種情況,刪除不合適的問答、糾正錯誤和填寫缺失的選項,手動優化注釋。

可理解的端到端駕駛

可解釋的端到端駕駛數據集通過面向-意圖-認知的算法規則自動集成,實現對駕駛過程的順序和透明描述。它涵蓋元動作、行為論證、規劃軌跡和控制信號(多種類型),挑戰模型的長軸任務推理能力。上圖(左)說明其構建過程,包括運動控制信號處理、元動作規則制定和行為證明文本生成。

運動控制信號 S 包括規劃軌跡和低級控制信號。原始 nuScenes 注釋為每個場景提供伴隨的運動控制信號。將這些信號解析為結構化的 JSON 條目并對其進行分類。具體來說,將歷史軌跡和控制信號作為已知信息與任務背景文本一起集成到系統提示中以協助推理。此外,使用未來軌跡和當前/下一幀控制信號作為真值標簽,將它們填充到預定義模板中以改進預測。

自車的元動作 A 表示為橫向速度水平估計、縱向速度水平估計和轉向級估計的組合?;陂撝悼臻g,細化每個部件的判斷規則。橫向和縱向速度水平估計由當前幀加速度與預定義閾值之間的關系確定。轉向級估計遵循分層判斷原則,首先根據當前幀排除怠速和直行動作,然后遍歷滿足直行條件的未來時間步。左轉/右轉和輕微左轉/右轉基于橫擺角速度增益、橫向位移和閾值之間的關系確定。

采用組合方法生成 64 種元動作類型,模擬車輛在不同場景下的行為模式。每種元動作都表示為一種連續狀態,與現實世界中的人類駕駛意圖保持一致。

行為論證文本 T 提供自車短期駕駛策略的原因分析,增強整個決策過程的可解釋性。利用 ChatGPT 的 API 接口進行生成:通過使用場景理解 QA 注釋和元動作作為上下文信息,提示 ChatGPT 自動生成元動作的分析論證。與手動注釋方法相比,這種方法可以生成更加多樣化的行為論證文本,并且可以全面準確地反映潛在的交通因素(例如交通規則)和社會因素(例如社會背景)。

訓練流水線

為了進一步增強 Sce2DriveX 的感知推理性能,本文引入面向任務的三階段訓練流程,包括:1)混合對齊預訓練;2)場景理解微調;3)端到端驅動微調。

訓練細節如下。

將每幅圖像裁剪為 224×224 的大小。從每個視頻中均勻采樣 8 幀,并對每幀進行圖像預處理。每批數據包括圖像和視頻的組合。在預訓練階段,模型訓練 1 個 epoch,批大小為 128,分布在 6 個 A100 (80GB) GPU 上。在微調階段,使用 AdamW 優化器和余弦學習率調度器,初始學習率設置為 2e-5,預熱比為 0.03,梯度累積步長為 2。具體來說,場景理解微調階段訓練模型 1 個 epoch,而端到端駕駛微調階段訓練模型 3 個 epoch。整個過程在 8 個 L20 (48GB) GPU 上完成,每個 GPU 的批大小為 4。

Sce2DriveX-- A Generalized MLLM Framework for Scene-to-Drive Learning 2502.14917v1.pdf

END

轉載自CSDN-三谷秋水

底.png

下一篇: PreWorld:半監督視覺中心 3D/4D 占用模型,突破自動駕駛場景理解成本與精度瓶頸
上一篇: Autosar 架構賦能汽車智駕域:分層控制與多模態傳感器融合實踐
相關文章
返回頂部小火箭