亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊(cè) 退出

PreWorld:半監(jiān)督視覺(jué)中心 3D/4D 占用模型,突破自動(dòng)駕駛場(chǎng)景理解成本與精度瓶頸

三谷秋水 2025-03-11

2025年2月來(lái)自清華大學(xué)的論文“Semi-supervised Vision-centric 3d Occupancy World Model For Autonomous Driving”。

了解世界動(dòng)態(tài)對(duì)于自動(dòng)駕駛規(guī)劃至關(guān)重要。最近的方法試圖通過(guò)學(xué)習(xí) 3D 占用世界模型來(lái)實(shí)現(xiàn)這一點(diǎn),該模型基于當(dāng)前觀察預(yù)測(cè)未來(lái)的周?chē)鷪?chǎng)景。然而,3D 占用標(biāo)簽仍然需要產(chǎn)生有希望的結(jié)果。考慮到 3D 戶外場(chǎng)景的注釋成本很高,本文提出一個(gè)半監(jiān)督的以視覺(jué)為中心 3D 占用世界模型 PreWorld,通過(guò)一種兩階段訓(xùn)練范式來(lái)利用 2D 標(biāo)簽的潛力:自監(jiān)督的預(yù)訓(xùn)練階段和全監(jiān)督的微調(diào)階段。具體而言,在預(yù)訓(xùn)練階段,利用屬性投影頭生成場(chǎng)景的不同屬性字段(例如 RGB、密度、語(yǔ)義),從而通過(guò)體渲染技術(shù)從 2D 標(biāo)簽實(shí)現(xiàn)時(shí)間監(jiān)督。此外,引入一個(gè)簡(jiǎn)單但有效的狀態(tài)條件預(yù)測(cè)模塊,以直接的方式遞歸地預(yù)測(cè)未來(lái)的占用和自車(chē)軌跡。

3D 場(chǎng)景理解是自動(dòng)駕駛的基石,對(duì)規(guī)劃和導(dǎo)航等下游任務(wù)產(chǎn)生直接影響。在各種 3D 場(chǎng)景理解任務(wù)中(Wang et al., 2022; Li et al., 2022a; Wei et al., 2023; Jin et al., 2024),3D 占用預(yù)測(cè)在自動(dòng)駕駛系統(tǒng)中起著至關(guān)重要的作用。其目標(biāo)是從有限的觀察中預(yù)測(cè)整個(gè)場(chǎng)景中每個(gè)體素語(yǔ)義占用情況。為此,一些先前的方法(Liong et al., 2020; Cheng et al., 2021; Xia et al., 2023)優(yōu)先考慮激光雷達(dá)作為輸入模態(tài),因?yàn)樗诓东@精確幾何信息方面具有強(qiáng)大的性能。然而,它們通常被認(rèn)為硬件成本高昂。因此,近年來(lái),人們開(kāi)始轉(zhuǎn)向以視覺(jué)為中心的解決方案(Zhang,2023c;Li,2023a;Zheng,2024)。

盡管上述方法取得了重大進(jìn)展,但它們主要側(cè)重于增強(qiáng)對(duì)當(dāng)前場(chǎng)景的更好感知。對(duì)于防撞和路線規(guī)劃,自動(dòng)駕駛汽車(chē)不僅需要理解當(dāng)前場(chǎng)景,還需要基于對(duì)世界動(dòng)態(tài)的理解來(lái)預(yù)測(cè)未來(lái)場(chǎng)景的演變。因此,引入 4D 占用預(yù)測(cè),根據(jù)歷史觀察結(jié)果預(yù)測(cè)未來(lái)的 3D 占用。最近的研究旨在通過(guò)學(xué)習(xí) 3D 占用世界模型來(lái)實(shí)現(xiàn)這一目標(biāo)(Zheng,2023;Wei,2024)。然而,在處理圖像輸入時(shí),這些方法遵循一條迂回的路徑,如圖 (b) 所示。通常,會(huì)使用預(yù)訓(xùn)練好的 3D 占用模型來(lái)獲取當(dāng)前占用,然后將其輸入到預(yù)測(cè)模塊以生成未來(lái)占用。預(yù)測(cè)模塊包括將占用編碼為離散 token 的 token 生成器、生成未來(lái) token 的自回歸架構(gòu)以及獲取未來(lái)占用的解碼器。在這種重復(fù)的編碼和解碼過(guò)程中,很容易發(fā)生信息丟失。因此,現(xiàn)有方法嚴(yán)重依賴 3D 占用標(biāo)簽作為監(jiān)督來(lái)產(chǎn)生有意義的結(jié)果,從而帶來(lái)顯著的注釋成本。

與 3D 占用標(biāo)簽相比,2D 標(biāo)簽相對(duì)容易獲取。最近,使用純 2D 標(biāo)簽進(jìn)行自監(jiān)督學(xué)習(xí)在 3D 占用預(yù)測(cè)任務(wù)中顯示出一些有希望的結(jié)果,如圖 (a) 所示。通過(guò)利用體渲染,RenderOcc (Pan et al., 2024) 使用 2D 深度圖和語(yǔ)義標(biāo)簽來(lái)訓(xùn)練模型。 SelfOcc(Huang et al.,2024)和 OccNerf(Zhang et al.,2023a)等方法更進(jìn)一步,僅使用圖像序列作為監(jiān)督。然而,在 4D 占用預(yù)測(cè)任務(wù)中尚未有類似的嘗試。

本文提出的 PreWorld 是一個(gè)半監(jiān)督以視覺(jué)為中心的 3D 占用世界模型,旨在滿足訓(xùn)練期間 2D 標(biāo)簽的效用,同時(shí)在 3D 占用預(yù)測(cè)和 4D 占用預(yù)測(cè)任務(wù)中實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的性能,如圖 ? 所示。

image.png

對(duì)于在時(shí)間戳 T 的車(chē)輛,以視覺(jué)為中心的 3D 占用預(yù)測(cè)任務(wù)以 N 個(gè)圖像視圖 S_T = {I1, I2, …, I^N } 作為輸入,并預(yù)測(cè)當(dāng)前 3D 占用 Y?_T 作為輸出,其中 (X, Y, Z) 表示 3D 體的分辨率,C 表示語(yǔ)義類別的數(shù)量,包括未占用 (Huang et al., 2023; Zhang et al., 2023c; Liu et al., 2023; Pan et al., 2024)。一個(gè) 3D 占用模型 O 通常包括占用網(wǎng)絡(luò) N 和占用頭 H。

以視覺(jué)為中心的 4D 占用預(yù)測(cè)任務(wù),則利用過(guò)去 k 幀的圖像序列 {S_T, S_T?1, …, S_T?k} 作為輸入,旨在預(yù)測(cè)未來(lái) f 幀的 3D 占用 (Zheng et al., 2023; Wei et al., 2024)。

3D 占用世界模型 W 嘗試采用自回歸方式來(lái)實(shí)現(xiàn)這一點(diǎn)。W 使用可用的 3D 占用模型 O 來(lái)預(yù)測(cè)過(guò)去 k 幀的 3D 占用{Y?_T,…,Y?_T?k},并利用場(chǎng)景token化器 T、自回歸架構(gòu) A 和解碼器 D 來(lái)預(yù)測(cè)未來(lái)的 3D 占用。在獲得歷史占用后,W 通過(guò) T 將 3D 占用編碼為離散 tokens {z_T,…,z_T?k} 。隨后,利用 A 根據(jù)這些 tokens 預(yù)測(cè)未來(lái) token z_T +1,然后將其輸入到 D 以生成未來(lái)占用 Y?_T +1。

PreWorld 的架構(gòu)如下圖所示:首先,利用占用網(wǎng)絡(luò)從多視角圖像中提取體特征。隨后,使用狀態(tài)條件預(yù)測(cè)模塊利用歷史特征遞歸預(yù)測(cè)未來(lái)的體特征。在自監(jiān)督預(yù)訓(xùn)練階段,體特征通過(guò)體渲染技術(shù)投影到各個(gè)屬性字段中,并由 2D 標(biāo)簽監(jiān)督。在全監(jiān)督微調(diào)階段,屬性投影頭不再參與計(jì)算,占用預(yù)測(cè)直接通過(guò)占用頭獲得,并由 3D 占用標(biāo)簽監(jiān)督。

image.png

狀態(tài)條件預(yù)測(cè)模塊如圖所示:僅由兩個(gè) MLP 組成,自車(chē)狀態(tài)可以選擇性地集成到網(wǎng)絡(luò)中,如虛線箭頭所示。

image.png

受到 Pan et al. (2024) 的啟發(fā),通過(guò)屬性投影頭 P 將當(dāng)前和未來(lái) f 幀的時(shí)間體特征序列 {F ?}_t = {F ?_T , F ?_T +1, …, F ?_T +f } 轉(zhuǎn)換為時(shí)間屬性場(chǎng) {A ?}_t,包括3D 體的密度、語(yǔ)義和 RGB 字段。

給定攝像機(jī) j 在時(shí)間戳 i 的內(nèi)和外參,可以提取一組 3D 射線 {r}_ij,其中每條射線 r 都來(lái)自攝像機(jī) j,對(duì)應(yīng)于圖像 I_i^j 的一個(gè)像素。此外,可以利用自車(chē)姿勢(shì)矩陣將射線從相鄰的 n 幀轉(zhuǎn)換為當(dāng)前幀,從而更好地捕捉周?chē)畔ⅰ_@些射線共同構(gòu)成用于監(jiān)督 A ?_i = (σ ?_i, s ?_i, c ?_i) 的集合 {r}_i。

對(duì)于每個(gè) r ∈ {r}_i,沿射線采樣 M 個(gè)點(diǎn) {u_m}。然后可以計(jì)算每個(gè)采樣點(diǎn) u_m 的渲染權(quán)重 w(u_m)。最后,可以通過(guò)累計(jì)求和射線上每個(gè)點(diǎn)對(duì)應(yīng)的值與其各自渲染權(quán)重的乘積來(lái)計(jì)算 2D 渲染深度、語(yǔ)義和 RGB 預(yù)測(cè)。

在用 3D 射線集 {r}_i 獲得渲染的2D預(yù)測(cè)之后,計(jì)算時(shí)域 2D 渲染損失用于訓(xùn)練。

PreWorld 的訓(xùn)練方案包括兩個(gè)階段:在自監(jiān)督的預(yù)訓(xùn)練階段,使用屬性投影頭 P 來(lái)實(shí)現(xiàn)對(duì) 2D 標(biāo)簽的時(shí)間監(jiān)督。這種方法能夠利用豐富且易于獲得的 2D 標(biāo)簽,同時(shí)預(yù)先優(yōu)化占用網(wǎng)絡(luò) N 和預(yù)測(cè)模塊 F。在隨后的微調(diào)階段,利用占用頭 H 來(lái)產(chǎn)生占用結(jié)果,并使用 3D 占用標(biāo)簽進(jìn)行進(jìn)一步優(yōu)化。

對(duì)于預(yù)訓(xùn)練階段,采用時(shí)間 2D 渲染損失 L_2D。具體而言,分別利用 Pan (2024) 的 SILog 損失和交叉熵?fù)p失作為 L_dep 和 L_sem,并使用 L1 損失作為 L_RGB。對(duì)于微調(diào)階段,遵循 Li (2023c) 的做法,采用 focal loss L_f 、 lovasz-softmax loss L_l 和場(chǎng)景-類別親和力損失 L_scalsem 和 L_scal^geo。

對(duì)這三個(gè)任務(wù)使用相同的網(wǎng)絡(luò)架構(gòu),但對(duì)于非時(shí)間的 3D 占用預(yù)測(cè)任務(wù),相應(yīng)地省略時(shí)間監(jiān)督和損失。采用 BEVStereo (Li et al., 2023b) 作為占用網(wǎng)絡(luò) N,僅將其檢測(cè)頭替換為 FB-OCC Li et al. (2023c) 中的占用頭 H 以進(jìn)行占用預(yù)測(cè)。對(duì)于訓(xùn)練,將批量大小設(shè)置為 16,使用 Adam 作為優(yōu)化器,并以 1×10?4 的學(xué)習(xí)率進(jìn)行訓(xùn)練。損失函數(shù)中的所有超參數(shù) λ 均設(shè)置為 1.0。對(duì)于 3D 占用預(yù)測(cè)任務(wù),PreWorld 在自監(jiān)督的預(yù)訓(xùn)練階段經(jīng)歷 6 個(gè) epoch,在全監(jiān)督的微調(diào)階段經(jīng)歷 12 個(gè) epoch。對(duì)于 4D 占用預(yù)測(cè)和運(yùn)動(dòng)規(guī)劃任務(wù),PreWorld 在自監(jiān)督預(yù)訓(xùn)練階段經(jīng)歷 8 個(gè) epoch,在全監(jiān)督微調(diào)階段經(jīng)歷 18 個(gè) epoch。所有實(shí)驗(yàn)均在 8 個(gè) NVIDIA A100 GPU 上進(jìn)行。

END

轉(zhuǎn)載自CSDN-三谷秋水

底.png

下一篇: CarPlanner:一致性自回歸 RL 框架,突破自動(dòng)駕駛軌跡規(guī)劃效率與一致性瓶頸
上一篇: Sce2DriveX 框架:多模態(tài) MLLM 與思維鏈推理推動(dòng)類人自動(dòng)駕駛的跨場(chǎng)景泛化
相關(guān)文章
返回頂部小火箭