亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊 退出
  • VAD v2: 概率規劃的端到端矢量化自動駕駛

    從大規模的駕駛演示中學習類似人類的駕駛策略是有希望的,但規劃的不確定性和不可定性使其具有挑戰性。在這項工作中,為了應對不確定性問題,提出了一種基于概率規劃的端到端駕駛模型VADv2。VADv2以流方式將多視圖圖像序列作為輸入,將傳感器數據轉換為環境tokens嵌入,輸出動作的概率分布,并對一個動作進

    硅谷秋水 1365 2025-01-20

  • GenAD: 生成式端到端自動駕駛

    直接從原始傳感器中產生規劃結果一直是自動駕駛的一個長期期望的解決方案,最近引起了越來越多的關注。大多數現有的端到端自動駕駛方法都將這個問題分解為感知、運動預測和規劃。然而,傳統的漸進式流水線仍然無法全面模擬整個交通演變過程,例如,自車和其他交通參與者之間的未來交互以及結構軌跡先驗。本文探索了一種端到

    硅谷秋水 1261 2025-01-20

  • 基礎模型在自動駕駛汽車發展中的未來作用

    隨著人工智能的發展和深度學習的突破,GPT、Sora 等大規模基礎模型(FM)在自然語言處理、計算機視覺等多個領域取得了令人矚目的成果。FM 在自動駕駛領域的應用前景廣闊,例如,它可以為場景理解和推理做出貢獻。通過對豐富的語言和視覺數據進行預訓練,FM 可以理解和解讀駕駛場景中的各種元素,并通過認知

    硅谷秋水 1212 2025-01-17

  • 自動駕駛中數據為中心的進化:大數據系統、數據挖掘和閉環技術綜述

    下一代自動駕駛(AD)技術的愿望依賴于智能感知、預測、規劃和低級控制之間的集成和交互。自動駕駛算法性能的上限一直存在巨大的瓶頸,學術界和業界一致認為,克服瓶頸的關鍵在于以數據為中心的自動駕駛技術。自動駕駛仿真、閉環模型訓練和自動駕駛大數據引擎的最新進展已經獲得了一些寶貴的經驗。然而,對于如何構建高效

    硅谷秋水 1386 2025-01-17

  • 打造自動駕駛的視覺基礎模型:挑戰、方法和機遇

    在廣泛的數據集上訓練的大型基礎模型,正在徹底改變人工智能領域。SAM、DALL-E2和GPT-4等模型通過提取復雜的模式和有效執行不同任務來展示其適應性,從而成為廣泛人工智能應用有說服力的構建塊。自動駕駛由于缺乏專門的視覺基礎模型(VFM),仍然面臨挑戰。綜合訓練數據的稀缺性、多傳感器集成的需要以及

    硅谷秋水 1255 2025-01-17

  • InfinityDrive:突破駕駛世界模型的時間限制

    由于無法獲取對于安全導航至關重要的多樣化、廣泛性和分布外的駕駛數據,自動駕駛系統在應對復雜場景時舉步維艱。世界模型為這一挑戰提供一個有希望的解決方案;然而,當前的駕駛世界模型受到短時窗和有限場景多樣性的限制。為了彌補這一差距, InfinityDrive,一個具有泛化能力的駕駛世界模型,通過分鐘級視

    硅谷秋水 1247 2025-01-17

  • BEVWorld:通過統一 BEV 潛空間實現自動駕駛的多模態世界模型

    世界模型因其預測潛在未來場景的能力,在自動駕駛領域受到越來越多的關注。本文提出 BEVWorld,它將多模態傳感器輸入token化為統一且緊湊的鳥瞰圖 (BEV) 潛空間,用于環境建模。世界模型由兩部分組成:多模態 token化器和潛 BEV 序列擴散模型。多模態token化器首先對多模態信息進行編

    硅谷秋水 1291 2025-01-16

  • 持續學習、適應和改進:自動駕駛的dual-process方法

    由于傳感器、機器學習和人工智能的進步,自動駕駛取得了長足的進步。然而,現行方法難以應對復雜的場景和因果關系,阻礙了在不同環境中的適應性和可解釋性。為了解決上述問題,LeapAD是一種受人類認知過程啟發的自動駕駛新范式。具體而言,LeapAD 通過選擇與駕駛決策相關的關鍵目標、簡化環境解釋和降低決策復

    硅谷秋水 1269 2025-01-16

  • Text-to-Drive: 通過大語言模型實現多樣化駕駛行為合成

    通過模擬生成各種場景對于訓練和評估安全-關鍵系統(例如自動駕駛汽車)至關重要。然而,對其他車輛的軌跡進行建模以模擬各種有意義的密切互動仍然成本高昂。采用語言描述來生成駕駛行為,是一種很有前途的策略,為人類操作員提供了一種可擴展且直觀的方法來模擬各種駕駛互動。然而,大規模注釋語言-軌跡數據的稀缺使得這

    硅谷秋水 1215 2025-01-16

  • VisionTrap:基于文本描述的視覺增強軌跡預測

    預測其他道路智體的未來軌跡是自動駕駛汽車的一項基本任務。現有的軌跡預測方法主要使用檢測和跟蹤系統生成的智體軌跡和高清地圖作為輸入。這項工作提出一種方法,結合來自環視攝像頭的視覺輸入,模型能夠利用視覺線索,例如人類注視和手勢、道路狀況、車輛轉向信號等,這些線索在先前的方法中通常對模型隱藏。此外,使用由

    硅谷秋水 1216 2025-01-16

  • 使用LLM提示多模態tokens來增強端到端自動駕駛的模仿學習

    大語言模型 (LLM) 在強化學習領域的應用,尤其是作為規劃器,在最近的學術文獻中引起了廣泛關注。然而,現有研究中的很大一部分主要集中在機器人的規劃模型上,這些模型將感知模型的輸出轉化為語言形式,從而采用了“純語言”策略。在這項研究中,提出一種用于自動駕駛的混合端到端學習框架,將基本的駕駛模仿學習與

    硅谷秋水 1301 2025-01-15

  • DriveGenVLM:基于視覺-語言模型的自動駕駛真實世界視頻生成

    自動駕駛技術的進步需要越來越復雜的方法來理解和預測現實世界的場景。視覺-語言模型 (VLM) 正在成為具有巨大潛力的革命性工具,對自動駕駛產生影響。本文提出 DriveGenVLM 框架來生成駕駛視頻并使用 VLM 來理解它們。為此,采用一個基于去噪擴散概率模型 (DDPM) 的視頻生成框架,旨在預

    硅谷秋水 1243 2025-01-15

  • KoMA:知識驅動的多智體框架用于大語言模型自動駕駛

    為了拓寬知識驅動策略的視野并增強自主智體的泛化能力,KoMA 框架由多智體交互、多步規劃、共享記憶和基于排名的反思模塊組成,以增強多智體在復雜駕駛場景中的決策能力。基于框架生成的駕駛場景文本描述,多智體交互模塊使LLM智體能夠根據場景信息分析和推斷周圍車輛的意圖,類似于人類的認知。多步規劃模塊使LL

    硅谷秋水 1258 2025-01-15

  • Driv3R:學習自動駕駛的密集 4D 重建

    動態場景的實時 4D 重建仍然是自動駕駛感知的關鍵挑戰。大多數現有方法依賴于通過自監督或多模態傳感器融合進行深度估計。Driv3R,是一個基于 DUSt3R 的框架,可直接從多視圖圖像序列中回歸每幀點圖。為了實現流式密集重建,維護一個內存池來推理跨傳感器的空間關系和動態時間上下文,以增強多視圖 3D

    硅谷秋水 1315 2025-01-15

  • Gen-Drive:通過獎勵建模和強化學習微調, 增強擴散生成駕駛策略

    Gen-Drive ,從傳統的預測和確定性規劃框架轉變為生成-然后-評估的規劃范式。該框架采用行為擴散模型作為場景生成器,以產生各種可能的未來場景,從而增強聯合交互推理的能力。為了方便決策,提出一個場景評估器(獎勵)模型,該模型使用通過 VLM 輔助收集的成對偏好數據進行訓練,從而減少人工工作量并提

    硅谷秋水 1239 2025-01-14

  • DrivingWorld:通過視頻 GPT 構建自動駕駛的世界模型

    本文提出 DrivingWorld,一種用于自動駕駛的 GPT 式世界模型,具有多種時空融合機制。這種設計能夠有效地對空間和時間動態進行建模,從而促進高保真、長時間的視頻生成。具體而言,提出一種下一狀態預測策略來模擬連續幀之間的時間連貫性,并應用下一個標記預測策略來捕獲每幀內的空間信息。為了進一步提

    硅谷秋水 1277 2025-01-14

  • DrivingGPT:使用多模態自回歸Transformer統一駕駛世界建模和規劃

    基于世界模型的搜索和規劃被廣泛認為是實現人類水平物理智能的一條有前途的道路。然而,目前的駕駛世界模型主要依賴于視頻擴散模型,這些模型專注于視覺生成,但缺乏納入動作等其他模態的靈活性。相比之下,自回歸TRansformer在建模多模態數據方面表現出色。該工作旨在將駕駛模型模擬和軌跡規劃統一為一個序列建

    硅谷秋水 1347 2025-01-14

  • DFIT-OccWorld:通過解耦動態流和圖像輔助訓練實現高效占用世界模型

    本文介紹 DFIT-OccWorld,這是一種高效的 3D 占用世界模型,它利用解耦動態流和圖像輔助訓練策略,大幅提高 4D 場景預測性能。為了簡化訓練過程,摒棄之前的兩階段訓練策略,將占用預測問題重新表述為一個解耦的體素扭曲過程。模型通過體素流扭曲現有觀測來預測未來的動態體素,而靜態體素則可以通過

    硅谷秋水 1294 2025-01-14

  • VidMan: 利用視頻擴散模型中的隱動力學實現有效的機器人操控

    利用大規模視頻數據學習視頻生成模型的最新進展表明,它在理解復雜物理動力學方面具有巨大潛力。它表明利用多樣化的機器人軌跡數據來開發統一的動力學-覺察模型以增強機器人操縱的可行性。然而,考慮到可用的機器人數據量相對較少,直接擬合數據而不考慮視覺觀察和動作之間的關系可能會導致數據利用率不理想。為此,提出機

    硅谷秋水 1278 2025-01-13

  • OpenAI O1 復制:通過簡單蒸餾超越 O1-preview,重大進步還是慘痛教訓?-第 2 部分

    本文對當前復制 OpenAI O1 模型功能的方法進行了嚴格的檢查,特別關注廣泛但經常未公開的知識蒸餾技術。雖然之前的工作(第 1 部分)探索了 O1 復制的基本技術路徑,但本文研究揭示如何通過從 O1 的 API 中進行簡單的蒸餾,結合監督微調,在復雜的數學推理任務中實現卓越的性能。通過大量的實驗

    硅谷秋水 1289 2025-01-13

  • OpenAI O1 復制:戰略進展報告 - 第 1 部分

    本文介紹一種人工智能研究方法,體現在 OpenAI O1 復制之旅中。為了響應 OpenAI 開創性 O1 模型的發布,開始一項透明的實時探索,以復制其功能,同時重新構想開展和交流人工智能研究的過程。該方法解決現代人工智能研究中的關鍵挑戰,包括長期團隊項目的孤立性、延遲的信息共享以及對不同貢獻的缺乏

    硅谷秋水 1246 2025-01-13

  • 形式化數學推理:人工智能的新前沿

    數學人工智能 (AI4Math) 不僅在智力上引人入勝,而且對于科學、工程和其他領域中由人工智能驅動的發現也至關重要。AI4Math 上的大量努力反映 NLP 的技術,特別是在策劃文本形式化的數學數據集上訓練大語言模型。作為一種互補但較少探索的途徑,形式化數學推理落地于類似于證明助手等的形式化系統,

    硅谷秋水 1350 2025-01-13

  • ViP3D: 通過3D智體query實現端到端視覺軌跡預測

    ViP3D,一種視覺軌跡預測流水線,利用原始視頻的豐富信息預測場景中智體的未來軌跡。ViP3D在整個流水線中使用稀疏智體query,使其完全可微分和可解釋。此外,提出一種新的端到端視覺軌跡預測任務的評估指標,端到端預測精度(EPA,End-to-end Prediction Accuracy),其在

    硅谷秋水 1258 2025-01-10

  • GenFollower:利用大語言模型增強跟車預測

    準確建模跟車行為對于交通管理和自動駕駛系統中的各種應用至關重要。然而,當前的方法往往存在諸如對數據質量高度敏感和缺乏可解釋性等局限性。本研究GenFollower,是一種零樣本提示方法,它利用大語言模型 (LLM) 來應對這些挑戰。將跟車行為重新定義為語言建模問題,并將異構輸入集成到 LLM 的結構

    硅谷秋水 1190 2025-01-10

  • 通過可控長視頻生成實現端到端自動駕駛的泛化

    使用生成模型來合成新數據已成為自動駕駛中解決數據稀缺問題的事實標準。雖然現有方法能夠增強感知模型,但這些方法無法提高端到端自動駕駛模型的規劃性能,因為生成的視頻通常少于 8 幀,并且空間和時間不一致性不可忽略。為此,Delphi,一種基于擴散的長視頻生成方法,具有跨多視圖的共享噪聲建模機制以增加空間

    硅谷秋水 1206 2025-01-10

  • 利用潛世界模型增強端到端自動駕駛

    當前的端到端方法很大程度上依賴于感知任務(例如檢測、跟蹤和地圖分割)的監督來幫助學習場景表征。然而,這些方法需要大量注釋,從而阻礙了數據的可擴展性。為了應對這一挑戰,提出了一種自監督方法來增強端到端駕駛,而無需昂貴的標簽。具體來說,框架 LAW 使用 LAtent World 模型根據預測的自我動作

    硅谷秋水 1245 2025-01-10

  • 通過 RL 微調改善自動駕駛的智體行為

    自動駕駛汽車研究的一個主要挑戰是建模智體行為,它具有關鍵的應用,包括為非車載評估構建逼真可靠的模擬,以及為車內規劃預測交通智體運動。雖然監督學習已在各個領域的智體建模中取得成功,但這些模型在測試時部署時可能會受到分布變化的影響。這項工作用強化學習(RL)對行為模型進行閉環微調來提高智體行為的可靠性。

    硅谷秋水 1349 2025-01-09

  • 具有 LLM 驅動數據合成和自動駕駛策略調整的魯棒 RL

    大語言模型 (LLM) 與自動駕駛系統的集成展示了強大的常識和推理能力,有效地解決了純數據驅動方法的缺陷。當前基于 LLM 的智體需要較長的推理時間,并且在與實時自動駕駛環境交互時面臨挑戰。一個關鍵的懸而未決的問題是,是否可以有效地利用來自 LLM 的知識來訓練高效且強大的強化學習 (RL) 智體。

    硅谷秋水 1264 2025-01-09

  • 自動駕駛大語言模型(LLM4AD):概念、基準、模擬和 實車的實驗

    隨著大語言模型 (LLM) 的廣泛使用和高度成功的開發,人們對將 LLM 應用于自動駕駛技術的興趣和需求日益增長。在自然語言理解和推理能力的驅動下,LLM 有可能增強自動駕駛系統的各個方面,從感知和場景理解到語言交互和決策。本文介紹設計用于自動駕駛的 LLM (LLM4AD) 概念和方法。提出一個全

    硅谷秋水 1323 2025-01-09

  • 自動駕駛系統中數據集成的深度學習方法研究

    自動駕駛汽車的感知模塊依靠多傳感器系統來了解其環境。深度學習的最新進展導致了整合多傳感器測量以增強感知能力方法的快速發展。本文概述應用于自動駕駛系統感知模塊的最新深度學習集成技術,并根據“集成什么、如何集成和何時集成”對集成方法進行了分類。提出一種基于三個維度的新集成分類法:多視圖、多模態和多幀。總

    硅谷秋水 1211 2025-01-09

  • OccLLaMA:用于自動駕駛的占用-語言-動作生成世界模型

    OccLLaMA,一種占用-語言-動作生成世界模型,使用語義占用作為一般的視覺表示,并通過自回歸模型統一視覺-語言-動作 (VLA) 模態。具體而言,引入一種新類似 VQVAE 的場景 token 化器來有效地離散化和重建語義占用場景,同時考慮到其稀疏性和類不平衡。然后,為視覺、語言和動作建立一個統

    硅谷秋水 1318 2025-01-08

  • 數據驅動的擴散模型提高自動駕駛汽車交通模擬的安全性

    安全-緊要交通場景對于自動駕駛系統的開發和驗證至關重要。這些場景為車輛在現實世界中很少遇到的高風險條件下的響應提供了重要的見解。緊要場景生成方面的最新進展,證明了基于擴散的方法在有效性和真實性方面優于傳統的生成模型。然而,當前基于擴散的方法,未能充分解決駕駛員行為和交通密度信息的復雜性,這兩者都顯著

    硅谷秋水 1236 2025-01-08

  • ACE:低成本靈巧遙控操作的跨平臺視覺外骨骼系統

    ACE提出了一種跨平臺的視覺外骨骼系統,該系統為遠程操作提供了一種低成本而靈巧的解決方案。在工業和醫療等領域具有顯著的應用潛力,ACE系統通過優化成本和提高操作靈活性,改善了遠程操作系統的可及性和實用性。

    硅谷秋水 1355 2025-01-08

  • OKAMI:通過單一視頻的模仿教授人形機器人操作技能

    OKAMI探索了一種通過單一視頻模仿教授人形機器人操作技能的方法,這種方法顯著降低了傳統機器人操作技能學習中需要的大量演示數據的需求。通過這種簡化的訓練過程,OKAMI能夠有效地在多種任務中提升人形機器人的操作能力,展示了其在不同應用場景中的適用性和效率。

    硅谷秋水 1226 2025-01-08

  • FusionAD:用于自動駕駛預測和規劃任務的多模態融合方法

    構建一個多模態多任務神經網絡實現準確和穩健的性能,是自動駕駛感知任務的事實標準。然而,利用來自多個傳感器的數據來聯合優化預測和規劃任務在很大程度上仍未被探索。 FusionAD,是一個融合來自兩個最關鍵的傳感器(攝像頭和激光雷達)信息的統一框架,超越感知任務。具體來說,首先構建一個基于Transfo

    硅谷秋水 1341 2025-01-07

  • 自我狀態是否就是開環端到端自動駕駛所需要的全部?

    端到端自動駕駛最近成為一種有前途的研究方向,旨在從全棧視角實現自動駕駛。沿著這條思路,許多最新研究都遵循 nuScenes 上的開環評估設置來研究規劃行為。本文進行徹底的分析和揭開更多細節中的謎團,深入研究這個問題。nuScenes 數據集以相對簡單的駕駛場景為特征,導致在結合自我狀態(例如自車的速

    硅谷秋水 1317 2025-01-07

  • ExBody:人形機器人富有表現的全身控制

    能否使人形機器人在現實世界中做出豐富多樣、富有表現的動作?在人形機器人上學習全身控制策略,盡可能真實地模仿人類動作。為了訓練這樣的策略,在強化學習框架中利用圖形學社區的大規模人體動作捕捉數據。然而,由于自由度和人體能力的差距很大,直接使用動作捕捉數據集進行模仿學習,對真實的人形機器人不起作用。本文提

    硅谷秋水 1304 2025-01-07

  • ExBody2:人形機器人高級富有表現的全身控制

    本文使現實世界的人形機器人能夠在像人類一樣做出富有表現的動作同時保持穩定性。提出高級富有表現的全身控制 (ExBody2),一個泛化的全身跟蹤框架,可以接受任何參考動作輸入并控制人形機器人模仿動作。該模型在模擬中使用強化學習進行訓練,然后遷移到現實世界。它將關鍵點跟蹤與速度控制解耦,并有效地利用特權

    硅谷秋水 1334 2025-01-06

  • WHALE:面向具身決策的可泛化和可擴展的世界模型

    世界模型在具身環境中的決策中起著至關重要的作用,使在現實世界中成本高昂的探索成為可能。為了促進有效的決策,世界模型必須具備強大的泛化能力,支持分布外 (OOD) 的忠實想象,并提供可靠的不確定性估計來評估模擬經驗的可信度,這兩者都對之前的可擴展方法提出了重大挑戰。WHALE,是一個用于學習可泛化世界

    硅谷秋水 1201 2025-01-06

  • 返回頂部小火箭