基于需求驅(qū)動(dòng)的自動(dòng)駕駛感知任務(wù)數(shù)據(jù)集缺口識(shí)別與緩解方法
本文重點(diǎn)研究模型存在認(rèn)知不確定性的缺口,將其定義為數(shù)據(jù)集覆蓋缺口。
仿生 Transformer 新突破:基于錐體神經(jīng)元雙輸入機(jī)制的三元推理循環(huán)模型
本文聚焦斯特靈大學(xué) Ahsan Adeel 團(tuán)隊(duì)開(kāi)發(fā)的仿生 Transformer 架構(gòu),揭示其如何通過(guò)模擬新皮質(zhì)錐體神經(jīng)元的雙輸入機(jī)制(RF1/CF2)與三元推理循環(huán)(Q-K-V 調(diào)制),實(shí)現(xiàn)高級(jí)感知處理與想象狀態(tài)的 AI 建模。研究提出的 Co4 機(jī)制通過(guò)預(yù)選擇注意力焦點(diǎn),將計(jì)算復(fù)雜度降至 O
基于視覺(jué)語(yǔ)言模型、反應(yīng)式規(guī)劃器與行為樹(shù)的機(jī)器人實(shí)時(shí)故障處理統(tǒng)一框架
本文提出一種創(chuàng)新的機(jī)器人實(shí)時(shí)故障處理統(tǒng)一框架,融合視覺(jué)語(yǔ)言模型(VLMs)、反應(yīng)式規(guī)劃器及行為樹(shù)(BTs),通過(guò)執(zhí)行前驗(yàn)證與反應(yīng)式故障處理相結(jié)合,實(shí)現(xiàn)對(duì)意外障礙物、傳感器誤差等復(fù)雜場(chǎng)景的自適應(yīng)應(yīng)對(duì)。框架利用場(chǎng)景圖進(jìn)行結(jié)構(gòu)化環(huán)境感知,結(jié)合執(zhí)行歷史跟蹤技術(shù),支持上下文敏感的動(dòng)態(tài)調(diào)整,可在 peg 插入、
NVIDIA Cosmos 如何通過(guò)物理仿真賦能物理 AI?解析世界基礎(chǔ)模型與合成數(shù)據(jù)技術(shù)的革新價(jià)值
.NVIDIA Cosmos:通過(guò)仿真模擬賦能物理 AI 發(fā)展工廠里的機(jī)器人、道路上的自動(dòng)駕駛汽車(chē)等物理 AI 系統(tǒng)的開(kāi)發(fā),高度依賴(lài)大規(guī)模高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練。
人工智能助力早期汽車(chē)工程流程
本文探討了在汽車(chē)開(kāi)發(fā)和工程流程的早期階段整合 AI 和基于知識(shí)的工程方法的問(wèn)題
彌合人工智能代理鴻溝:跨越自主能力光譜的實(shí)施困境與突破路徑
本文深入剖析了人工智能代理實(shí)施現(xiàn)狀,通過(guò)對(duì)超 1250 個(gè)開(kāi)發(fā)團(tuán)隊(duì)的調(diào)查數(shù)據(jù),揭示了計(jì)劃構(gòu)建復(fù)雜代理工作流程與成功生產(chǎn)部署之間的巨大差距。詳細(xì)闡述了從 L0 到 L5 的自主能力框架,分析各自主級(jí)別面臨的技術(shù)挑戰(zhàn)、技術(shù)棧考量及實(shí)施現(xiàn)實(shí)。還探討了開(kāi)發(fā)方法、未來(lái)方向和技術(shù)路線(xiàn)圖,為人工智能開(kāi)發(fā)者提供了極
使用利用人工智能幻覺(jué)評(píng)估影像真實(shí)感:大型視覺(jué)語(yǔ)言模型與自然語(yǔ)言推理的應(yīng)用智慧幻覺(jué)來(lái)評(píng)估影像真實(shí)感
SEO 即搜索引擎優(yōu)化,是一種通過(guò)優(yōu)化網(wǎng)站內(nèi)容、結(jié)構(gòu)、代碼等多方面元素,來(lái)提高網(wǎng)站在搜索引擎自然排名結(jié)果中的位置,進(jìn)而增加網(wǎng)站流量、提升網(wǎng)站曝光度和用戶(hù)訪(fǎng)問(wèn)量的技術(shù)和策略。它旨在使網(wǎng)站更符合搜索引擎的算法規(guī)則和用戶(hù)的搜索習(xí)慣,包括關(guān)鍵詞研究與布局、優(yōu)化頁(yè)面標(biāo)題和描述、提高網(wǎng)站加載速度、創(chuàng)建高質(zhì)量的內(nèi)
深度剖析生成式人工智能:技術(shù)變革、行業(yè)影響與未來(lái)展望
本文深入剖析生成式人工智能,詳細(xì)闡釋其與傳統(tǒng)人工智能的差異,如生成全新內(nèi)容的獨(dú)特能力。解析 ChatGPT 等典型應(yīng)用,對(duì)比大語(yǔ)言模型與生成式人工智能范疇。深度解讀其核心技術(shù),包括深度神經(jīng)網(wǎng)絡(luò)、Transformer 模型及大數(shù)據(jù)處理。全面探討優(yōu)勢(shì)與局限,涵蓋增強(qiáng)創(chuàng)造力、自動(dòng)化流程、數(shù)據(jù)偏差等方面。
對(duì)話(huà) HealthAI 首席 AI 官 Alberto-Giovanni Busetto 博士:解鎖人工智能賦能醫(yī)療新未來(lái)
Alberto-Giovanni Busetto 博士,HealthAI 首席人工智能官,擁有超 20 年 AI 經(jīng)驗(yàn),曾任職于默克等巨頭。在訪(fǎng)談中,他深入探討 AI 與醫(yī)療融合,剖析其改善全球醫(yī)療結(jié)果、縮小健康差距的潛力,闡述了在數(shù)據(jù)治理、倫理道德、監(jiān)管合作等方面面臨的挑戰(zhàn)與應(yīng)對(duì)策略,展現(xiàn)了 AI
從單詞到概念的跨越:大型概念模型革新語(yǔ)言理解與生成全解析
深度解析大型概念模型(LCM),它作為人工智能領(lǐng)域新興架構(gòu),突破大型語(yǔ)言模型局限,從處理單詞邁向處理概念,實(shí)現(xiàn)語(yǔ)言理解與生成的變革。文中詳細(xì)闡述 LCM 的定義、訓(xùn)練方式、顯著優(yōu)勢(shì),也剖析其面臨的計(jì)算成本、可解釋性等挑戰(zhàn)及未來(lái)研究方向。帶你全面了解 LCM 如何重塑 AI 語(yǔ)言處理格局,是人工智能愛(ài)
突破傳感器局限!AnyTouch 如何重塑機(jī)器人觸覺(jué)感知,實(shí)現(xiàn)跨傳感器統(tǒng)一表征?
本文圍繞視覺(jué)觸覺(jué)傳感器在機(jī)器人領(lǐng)域的應(yīng)用展開(kāi),介紹了人大、武漢科技大學(xué)和北郵聯(lián)合研究的 “AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。文中指出,視覺(jué)觸覺(jué)
顛覆傳統(tǒng)!PointVLA 如何為視覺(jué) - 語(yǔ)言 - 動(dòng)作模型注入 3D 新動(dòng)力,重塑機(jī)器人應(yīng)用格局?
這篇文章聚焦于計(jì)算機(jī)視覺(jué)與機(jī)器人領(lǐng)域的前沿研究,介紹了 “PointVLA: Injecting the 3D World into Vision-Language-Action Models”。傳統(tǒng)視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)模型依賴(lài) 2D 數(shù)據(jù),空間推理能力受限。PointVLA 創(chuàng)新性地
OctoTools:斯坦福開(kāi)源框架實(shí)現(xiàn)跨領(lǐng)域復(fù)雜推理(準(zhǔn)確率超越 GPT-4o 9.3%)
斯坦福大學(xué)推出 OctoTools 開(kāi)源框架,通過(guò)標(biāo)準(zhǔn)化工具卡、動(dòng)態(tài)規(guī)劃器與執(zhí)行器協(xié)同,突破大模型復(fù)雜推理瓶頸。無(wú)需額外訓(xùn)練即可處理視覺(jué)理解、數(shù)學(xué)計(jì)算、醫(yī)學(xué)診斷等 16 類(lèi)跨領(lǐng)域任務(wù),在 MathVista、MedQA 等基準(zhǔn)測(cè)試中平均準(zhǔn)確率達(dá) 58.5%,較 GPT-4o 提升 9.3%,優(yōu)于 A
Mobile-Agent-V:視頻引導(dǎo)多智能體協(xié)同實(shí)現(xiàn)移動(dòng)設(shè)備高效自動(dòng)化操作(性能提升 30%)
北京交大聯(lián)合阿里提出 Mobile-Agent-V 框架,通過(guò)視頻引導(dǎo)多智能體協(xié)作實(shí)現(xiàn)移動(dòng)設(shè)備自動(dòng)化操作。突破傳統(tǒng)依賴(lài)手動(dòng)知識(shí)注入的局限,創(chuàng)新滑動(dòng)窗口與深度反思機(jī)制,精準(zhǔn)解析用戶(hù)操作視頻,動(dòng)態(tài)優(yōu)化執(zhí)行路徑,性能較現(xiàn)有方案提升 30%。適用于復(fù)雜跨應(yīng)用場(chǎng)景(如拍照禁用定位),降低人工干預(yù)成本,為 AI
具身多模態(tài)大模型:開(kāi)發(fā)、數(shù)據(jù)集與未來(lái)趨勢(shì)解析(下)
具身多模態(tài)大模型(EMLM)是融合語(yǔ)言、視覺(jué)、觸覺(jué)等多模態(tài)數(shù)據(jù)與物理交互能力的前沿 AI 系統(tǒng),由廣東人工智能和數(shù)字經(jīng)濟(jì)實(shí)驗(yàn)室等機(jī)構(gòu)牽頭研究。本文系統(tǒng)梳理 EMLM 技術(shù)體系,剖析 PaLM-E、RT-1 等典型模型及 Open X-Embodiment、Habitat-Sim 等數(shù)據(jù)集,重點(diǎn)探討跨
具身多模態(tài)大模型:開(kāi)發(fā)、數(shù)據(jù)集與未來(lái)趨勢(shì)解析(上)
具身多模態(tài)大模型(EMLM)是融合語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)等多模態(tài)數(shù)據(jù)與物理交互能力的前沿 AI 系統(tǒng),由斯坦福李飛飛團(tuán)隊(duì)等機(jī)構(gòu)推動(dòng)發(fā)展。本文系統(tǒng)梳理 EMLM 核心技術(shù),涵蓋大語(yǔ)言模型(LLM)、視覺(jué)模型(LVM)及跨模態(tài)架構(gòu),聚焦家庭服務(wù)、自動(dòng)駕駛等場(chǎng)景的具身感知、導(dǎo)航與交互應(yīng)用。剖析 PaLM-E、R
行為機(jī)器人套件 BRS:家庭場(chǎng)景全身操控的低成本雙臂解決方案
行為機(jī)器人套件(BRS)由斯坦福李飛飛團(tuán)隊(duì)開(kāi)發(fā),是專(zhuān)為家庭場(chǎng)景設(shè)計(jì)的全身操控機(jī)器人解決方案。其核心搭載 Galaxea R1 雙臂機(jī)器人,配備 4 自由度軀干與全向移動(dòng)基座,支持 2 米垂直 / 2.06 米水平作業(yè)范圍,覆蓋家庭物品分布的 98% 空間需求。創(chuàng)新集成 JoyLo 低成本遙操作界面(
TidyBot++ 開(kāi)源完整移動(dòng)機(jī)械手:家庭場(chǎng)景機(jī)器人學(xué)習(xí)的低成本全向解決方案
TidyBot++ 是由普林斯頓、斯坦福與 dexterity.ai 聯(lián)合開(kāi)發(fā)的開(kāi)源完整移動(dòng)機(jī)械手,專(zhuān)為家庭環(huán)境機(jī)器人學(xué)習(xí)設(shè)計(jì)。其創(chuàng)新采用動(dòng)力腳輪驅(qū)動(dòng)系統(tǒng),實(shí)現(xiàn)全平面自由度(x、y、θ)獨(dú)立控制,支持實(shí)時(shí)側(cè)向移動(dòng)與精準(zhǔn)定位,顯著提升家庭任務(wù)(如擦桌、開(kāi)冰箱、倒垃圾)的操作效率。系統(tǒng)配備手機(jī)遙操作界面
AlphaDrive:華中科技大學(xué) - 地平線(xiàn)聯(lián)合提出強(qiáng)化學(xué)習(xí)框架,突破自動(dòng)駕駛 VLM 規(guī)劃瓶頸(MetaAD 提升 22%)
華中科技大學(xué)聯(lián)合地平線(xiàn)提出 AlphaDrive 框架,創(chuàng)新性結(jié)合強(qiáng)化學(xué)習(xí)與推理技術(shù),突破自動(dòng)駕駛 VLM 規(guī)劃瓶頸。通過(guò) GRPO 算法與四種定制獎(jiǎng)勵(lì)(規(guī)劃準(zhǔn)確性 / 動(dòng)作加權(quán) / 多樣性 / 格式),在 MetaAD 數(shù)據(jù)集上實(shí)現(xiàn)橫向決策 F1 提升 22%、縱向決策 F1 提升 18%。采用
Chameleon:清華 - 博世聯(lián)合提出快 - 慢神經(jīng)符號(hào)框架,突破無(wú)地圖自動(dòng)駕駛車(chē)道拓?fù)涮崛【龋∣penLane-V2 提升 22%)
清華大學(xué)聯(lián)合博世研發(fā)的 Chameleon 框架,創(chuàng)新性提出快 - 慢神經(jīng)符號(hào)推理架構(gòu),突破自動(dòng)駕駛無(wú)地圖場(chǎng)景下的車(chē)道拓?fù)涮崛‰y題。通過(guò)動(dòng)態(tài)合成程序的快速系統(tǒng)處理常規(guī)車(chē)道關(guān)系,結(jié)合 GPT-4 視覺(jué)模型的慢系統(tǒng)解決極端路口場(chǎng)景,在 OpenLane-V2 數(shù)據(jù)集上實(shí)現(xiàn)車(chē)道段檢測(cè) DETIs 提升 2
Occ-LLM:基于運(yùn)動(dòng)分離 VAE 的大模型架構(gòu),突破自動(dòng)駕駛 4D 占用預(yù)測(cè)精度極限(港科大廣州)
香港科技大學(xué)廣州分校最新研究提出 Occ-LLM 框架,創(chuàng)新性融合大語(yǔ)言模型與 3D 語(yǔ)義占用表示,突破傳統(tǒng)自動(dòng)駕駛感知瓶頸。通過(guò)運(yùn)動(dòng)分離變分自動(dòng)編碼器(MS-VAE)有效解決動(dòng)態(tài) / 靜態(tài)場(chǎng)景分離難題,在 nuScenes 數(shù)據(jù)集上實(shí)現(xiàn) 4D 占用預(yù)測(cè) IoU 提升 6%、mIoU 提升 4%。支
北大聯(lián)合理想汽車(chē)突破駕駛場(chǎng)景重建:ReconDreamer 首創(chuàng)在線(xiàn)恢復(fù)技術(shù),NTA-IoU 提升 24.87%(多車(chē)道變換場(chǎng)景)
"ReconDreamer:北大聯(lián)合理想汽車(chē)首創(chuàng)動(dòng)態(tài)駕駛場(chǎng)景重建框架!通過(guò)在線(xiàn)恢復(fù)技術(shù) + 漸進(jìn)式數(shù)據(jù)更新策略,在多車(chē)道變換等復(fù)雜機(jī)動(dòng)中實(shí)現(xiàn) NTA-IoU 提升 24.87%(超越 Street Gaussians),F(xiàn)ID 指標(biāo)優(yōu)化 29.97%。技術(shù)突破包括:基于擴(kuò)散去噪的 Driv
顛覆端到端自動(dòng)駕駛:零樣本 LLM + 閉環(huán)架構(gòu),單錐體訓(xùn)練實(shí)現(xiàn)復(fù)雜場(chǎng)景泛化(90% 數(shù)據(jù)標(biāo)注減少)
"紐約州立大學(xué)顛覆性突破:全球首個(gè)零樣本 LLM 賦能端到端自動(dòng)駕駛閉環(huán)架構(gòu)!僅需單錐體極簡(jiǎn)環(huán)境訓(xùn)練,通過(guò) LLM 實(shí)時(shí)生成左轉(zhuǎn) / 右轉(zhuǎn)指令,成功應(yīng)對(duì)多障礙物、動(dòng)態(tài)場(chǎng)景及視覺(jué)干擾(如之字形走廊 + 垃圾桶)。技術(shù)創(chuàng)新包括:基于 ChatGPT-4o 的多模態(tài)指令生成鏈(障礙物識(shí)別→路徑評(píng)
AgiBot World Colosseo:MIT 開(kāi)源百萬(wàn)級(jí)雙臂機(jī)器人數(shù)據(jù)集(100 萬(wàn)軌跡 ×217 任務(wù)),ViLLA 框架登頂具身智能 SOTA(60% 成功率,超 RDT 32%)
"AgiBot World Colosseo:全球首個(gè)百萬(wàn)級(jí)雙臂機(jī)器人操控?cái)?shù)據(jù)集(100 萬(wàn) + 軌跡 / 217 任務(wù) / 87 技能),ViLLA 框架突破具身智能泛化極限!基于 AgiBot G1 人形平臺(tái)(6 自由度靈巧手 + 視覺(jué)觸覺(jué)融合),在超市補(bǔ)貨、折疊短褲等復(fù)雜任務(wù)中實(shí)現(xiàn)
Satori:COAT 推理 + 強(qiáng)化學(xué)習(xí)革新 LLM!MIT 開(kāi)源 7B 模型登頂數(shù)學(xué)推理 SOTA(自回歸搜索 + 自我改進(jìn))
探索 Satori 模型如何通過(guò)行動(dòng) - 思維 - 鏈(COAT)推理與強(qiáng)化學(xué)習(xí)革新大語(yǔ)言模型(LLM)的推理能力!本文提出兩階段訓(xùn)練范式:格式調(diào)整階段通過(guò)模仿學(xué)習(xí)內(nèi)化 COAT 推理格式,自我改進(jìn)階段利用 PPO 算法與重啟探索策略(RAE)實(shí)現(xiàn)模型自主優(yōu)化。Satori 作為開(kāi)源 7B 模型,在
像人類(lèi)視覺(jué)一樣聚焦:MOBA 如何讓 LLM 自主選擇關(guān)鍵上下文塊(附清華 / 浙大最新研究)
清華大學(xué)聯(lián)合浙江大學(xué)提出 MOBA 混合塊注意機(jī)制,突破長(zhǎng)上下文 LLM 的二次計(jì)算瓶頸。通過(guò)融合混合專(zhuān)家(MoE)架構(gòu),MOBA 允許模型動(dòng)態(tài)選擇關(guān)鍵上下文塊進(jìn)行稀疏注意,在保持完整注意力性能的同時(shí),將計(jì)算復(fù)雜度線(xiàn)性化。相比傳統(tǒng)靜態(tài)稀疏方法(如滑動(dòng)窗),MOBA 無(wú)需預(yù)定義結(jié)構(gòu),支持全注意與稀疏模
LeapVAD:雙過(guò)程決策 + 認(rèn)知感知,突破自動(dòng)駕駛長(zhǎng)尾場(chǎng)景瓶頸(CARLA 模擬器驗(yàn)證)
LeapVAD 自動(dòng)駕駛框架,突破傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)方法局限。通過(guò)認(rèn)知感知模塊動(dòng)態(tài)聚焦關(guān)鍵交通要素,構(gòu)建多屬性場(chǎng)景表征,并融合雙過(guò)程決策機(jī)制:系統(tǒng) II(分析過(guò)程)依托 LLM 邏輯推理積累經(jīng)驗(yàn),系統(tǒng) I(啟發(fā)式過(guò)程)通過(guò)少樣本學(xué)習(xí)實(shí)現(xiàn)快速響應(yīng)。創(chuàng)新場(chǎng)景編碼器網(wǎng)絡(luò)生成緊湊場(chǎng)景 token,支持高效經(jīng)驗(yàn)檢
工業(yè)級(jí)具身智能落地:AgiBot World Colosseo 在倉(cāng)儲(chǔ) / 裝配 / 服務(wù)場(chǎng)景中的多模態(tài)任務(wù)實(shí)測(cè)
智元機(jī)器人推出 AgiBot World Colosseo 大型操控平臺(tái),構(gòu)建百萬(wàn)級(jí)具身智能數(shù)據(jù)集,包含 217 個(gè)任務(wù)場(chǎng)景與多模態(tài)傳感器數(shù)據(jù),突破傳統(tǒng)機(jī)器人數(shù)據(jù)碎片化限制。通過(guò)雙機(jī)械臂靈巧手硬件平臺(tái)、人在環(huán)驗(yàn)證機(jī)制及故障恢復(fù)數(shù)據(jù)標(biāo)注,確保數(shù)據(jù)質(zhì)量與多樣性。創(chuàng)新 ViLLA 框架結(jié)合潛動(dòng)作模型與潛規(guī)
Satori:COAT 強(qiáng)化學(xué)習(xí)框架突破 LLM 推理極限,MIT 團(tuán)隊(duì)開(kāi)源 7B 模型實(shí)現(xiàn)數(shù)學(xué)推理 SOTA
這篇文章介紹了 Satori 模型,通過(guò)行動(dòng) - 思維 - 鏈(COAT)機(jī)制和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn) LLM 推理能力的自我增強(qiáng)。提出兩階段訓(xùn)練范式:1)格式調(diào)整階段內(nèi)化 COAT 推理格式;2)強(qiáng)化學(xué)習(xí)階段通過(guò)重啟探索策略(RAE)和迭代自我改進(jìn)提升推理精度。該方法在開(kāi)源數(shù)據(jù)上訓(xùn)練 7B 模型,在數(shù)學(xué)推理
駕駛世界模型(DWM)系統(tǒng)性綜述:多模態(tài)融合與時(shí)空建模賦能自動(dòng)駕駛復(fù)雜場(chǎng)景,nuScenes 基準(zhǔn)關(guān)鍵技術(shù)突破
本文系統(tǒng)綜述駕駛世界模型(DWM)在自動(dòng)駕駛中的核心作用,全面梳理其技術(shù)演進(jìn)與應(yīng)用場(chǎng)景。研究從 2D/3D 場(chǎng)景演化、無(wú)場(chǎng)景范式(潛狀態(tài) / 多智體行為)兩大維度分類(lèi)方法,重點(diǎn)分析多模態(tài)融合、時(shí)空一致性建模、可控生成等關(guān)鍵技術(shù)。論文深入探討 DWM 在模擬、數(shù)據(jù)生成、預(yù)期駕駛及 4D 預(yù)訓(xùn)練中的創(chuàng)新
VLM-E2E:視覺(jué) - 語(yǔ)言與 BEV 融合賦能端到端自動(dòng)駕駛,nuScenes 動(dòng)態(tài)場(chǎng)景接近人類(lèi)駕駛水平
本文提出VLM-E2E框架,通過(guò)融合視覺(jué) - 語(yǔ)言模型(VLM)與鳥(niǎo)瞰圖(BEV)特征,創(chuàng)新性地引入駕駛員注意語(yǔ)義監(jiān)督,顯著提升端到端自動(dòng)駕駛在復(fù)雜場(chǎng)景中的決策能力。該方法利用 BLIP-2 生成文本注釋?zhuān)Y(jié)合 CLIP 編碼文本特征,并通過(guò)可學(xué)習(xí)的 BEV-Text 加權(quán)融合策略動(dòng)態(tài)平衡多模態(tài)信息
預(yù)測(cè)逆動(dòng)力學(xué)模型 Seer:端到端視覺(jué) - 動(dòng)作協(xié)同賦能機(jī)器人操作,CALVIN 序列長(zhǎng)度 4.28 + 真實(shí)任務(wù) 43% 提升
本文提出預(yù)測(cè)逆動(dòng)力學(xué)模型(PIDM),通過(guò)端到端框架實(shí)現(xiàn)機(jī)器人操作的可擴(kuò)展學(xué)習(xí)。該方法將條件視覺(jué)預(yù)見(jiàn)與逆動(dòng)力學(xué)預(yù)測(cè)相結(jié)合,形成閉環(huán)控制,有效利用大規(guī)模機(jī)器人數(shù)據(jù)(如 DROID)進(jìn)行預(yù)訓(xùn)練,并通過(guò)少量微調(diào)適應(yīng)真實(shí)場(chǎng)景。實(shí)驗(yàn)表明,模型(命名為 Seer)在 LIBERO-LONG 基準(zhǔn)上提升 13%、
擴(kuò)散 Transformer 策略:大規(guī)模預(yù)訓(xùn)練驅(qū)動(dòng)跨具身 VLA 泛化,Calvin 基準(zhǔn) 3.6 任務(wù)突破
本文提出擴(kuò)散 Transformer 策略(Diffusion Transformer Policy),通過(guò)大規(guī)模擴(kuò)散 Transformer 模型實(shí)現(xiàn)通才視覺(jué) - 語(yǔ)言 - 動(dòng)作(VLA)學(xué)習(xí),突破傳統(tǒng)動(dòng)作頭設(shè)計(jì)的局限性。該方法直接利用 Transformer 對(duì)連續(xù)動(dòng)作塊進(jìn)行去噪建模,結(jié)合跨具身
OpenVLA-OFT:OFT 并行解碼 + 動(dòng)作分塊,機(jī)器人控制成功率 97.1%,速度提升 26 倍
本文提出 OpenVLA-OFT,一種基于優(yōu)化微調(diào)(OFT)的視覺(jué) - 語(yǔ)言 - 行動(dòng)模型,通過(guò)并行解碼、動(dòng)作分塊和連續(xù)動(dòng)作表示三大核心創(chuàng)新,突破傳統(tǒng)自回歸模型在推理速度與任務(wù)成功率上的瓶頸。研究表明,OFT 方案在 LIBERO 模擬基準(zhǔn)上實(shí)現(xiàn)平均成功率 97.1%,較基線(xiàn)提升 26.9%,同時(shí)動(dòng)
ForceMimic:HybridIL + 力控制,機(jī)器人接觸操作成功率提升 54.5%
本文提出 ForceMimic,一種以力為中心的機(jī)器人模仿學(xué)習(xí)系統(tǒng),通過(guò)創(chuàng)新的 ForceCapture 數(shù)據(jù)采集設(shè)備與 HybridIL 算法,突破傳統(tǒng)軌跡驅(qū)動(dòng)策略在接觸豐富操作中的局限性。ForceCapture 系統(tǒng)實(shí)現(xiàn)低成本、無(wú)機(jī)器人的自然力 - 運(yùn)動(dòng)數(shù)據(jù)采集,操作員 5 分鐘內(nèi)即可完成西葫
CarPlanner:一致性自回歸 RL 框架,突破自動(dòng)駕駛軌跡規(guī)劃效率與一致性瓶頸
本文提出的 CarPlanner 是一種面向自動(dòng)駕駛的一致性自回歸軌跡規(guī)劃模型,通過(guò)結(jié)合強(qiáng)化學(xué)習(xí)(RL)與自回歸結(jié)構(gòu),突破了傳統(tǒng)規(guī)劃器在大規(guī)模場(chǎng)景下訓(xùn)練效率低、多模態(tài)軌跡一致性差的難題。模型創(chuàng)新性地引入縱向 - 橫向模式分解框架,利用非反應(yīng)式轉(zhuǎn)換模型預(yù)生成交通參與者軌跡,通過(guò)一致性模式條件策略實(shí)現(xiàn)多
PreWorld:半監(jiān)督視覺(jué)中心 3D/4D 占用模型,突破自動(dòng)駕駛場(chǎng)景理解成本與精度瓶頸
本文提出了一種用于自動(dòng)駕駛的半監(jiān)督視覺(jué)中心 3D 占用世界模型 PreWorld,通過(guò)兩階段訓(xùn)練范式(自監(jiān)督預(yù)訓(xùn)練 + 全監(jiān)督微調(diào))有效利用 2D 標(biāo)簽,顯著降低 3D 占用注釋成本。模型創(chuàng)新性地引入狀態(tài)條件預(yù)測(cè)模塊和體渲染技術(shù),實(shí)現(xiàn)高精度 3D/4D 場(chǎng)景理解與動(dòng)態(tài)預(yù)測(cè),在自動(dòng)駕駛場(chǎng)景中展現(xiàn)出高效
OpenVLA-OFT 框架:并行解碼與動(dòng)作分塊協(xié)同加速 VLA 模型,實(shí)現(xiàn) 26 倍吞吐量提升與 97.1% 任務(wù)成功率
本文提出 OpenVLA-OFT 框架,通過(guò)優(yōu)化微調(diào)策略顯著提升視覺(jué) - 語(yǔ)言 - 行動(dòng)(VLA)模型的推理速度與任務(wù)成功率。研究聚焦三大核心創(chuàng)新:并行解碼與動(dòng)作分塊技術(shù)將動(dòng)作生成吞吐量提升 26 倍,連續(xù)動(dòng)作表示結(jié)合 L1 回歸目標(biāo)避免離散化損失,以及多模態(tài)輸入處理增強(qiáng)復(fù)雜場(chǎng)景適應(yīng)性。實(shí)驗(yàn)表明,O
Sce2DriveX 框架:多模態(tài) MLLM 與思維鏈推理推動(dòng)類(lèi)人自動(dòng)駕駛的跨場(chǎng)景泛化
本文提出 Sce2DriveX 框架,一種基于多模態(tài)大語(yǔ)言模型(MLLM)的場(chǎng)景到駕駛學(xué)習(xí)通用框架,旨在解決自動(dòng)駕駛中跨場(chǎng)景泛化與人類(lèi)認(rèn)知一致性難題。Sce2DriveX 通過(guò)融合多視角視頻與 BEV 地圖的多模態(tài)聯(lián)合學(xué)習(xí),強(qiáng)化 3D 時(shí)空關(guān)系理解與道路拓?fù)渫评恚⒅貥?gòu)人類(lèi)駕駛思維鏈(CoT),涵蓋
HPT 框架:異構(gòu)預(yù)訓(xùn)練 Transformer 推動(dòng)機(jī)器人跨具身與任務(wù)的高效策略遷移
本文提出異構(gòu)預(yù)訓(xùn)練 Transformer(HPT)框架,通過(guò)模塊化架構(gòu)解決機(jī)器人學(xué)習(xí)中異構(gòu)數(shù)據(jù)的挑戰(zhàn)。HPT 利用具身特定的 stem 將不同傳感器輸入(本體感受、視覺(jué)等)對(duì)齊到共享潛空間,結(jié)合共享 trunk 和任務(wù)特定 head,實(shí)現(xiàn)跨具身和任務(wù)的泛化策略學(xué)習(xí)。研究基于 52 個(gè)數(shù)據(jù)集(涵蓋模
基于深度學(xué)習(xí)的自動(dòng)駕駛小車(chē)開(kāi)發(fā)(Pytorch實(shí)現(xiàn),含完整數(shù)據(jù)和源碼,樹(shù)莓派+神經(jīng)計(jì)算棒)
本文詳細(xì)介紹了如何使用深度學(xué)習(xí)技術(shù),結(jié)合Pytorch框架,開(kāi)發(fā)一套基于視覺(jué)的自動(dòng)駕駛小車(chē)系統(tǒng)。從模擬平臺(tái)安裝使用到真實(shí)樹(shù)莓派小車(chē)部署,全程覆蓋,包括完整的代碼和數(shù)據(jù)集。通過(guò)OpenCV進(jìn)行傳統(tǒng)圖像處理與深度學(xué)習(xí)模型訓(xùn)練的比較,展示了深度學(xué)習(xí)的強(qiáng)大能力。同時(shí),文章還指導(dǎo)如何在樹(shù)莓派上結(jié)合神經(jīng)計(jì)算棒N
Helix 讓 Figure-2 加速現(xiàn)實(shí)世界的物流
本文展示如何將高質(zhì)量數(shù)據(jù)集與立體多尺度視覺(jué)、在線(xiàn)標(biāo)定和測(cè)試-時(shí)間加速等架構(gòu)改進(jìn)相結(jié)合,在現(xiàn)實(shí)世界的物流分類(lèi)場(chǎng)景中實(shí)現(xiàn)比演示者更快的靈巧機(jī)器人操作——所有這些都在使用相對(duì)適量演示數(shù)據(jù)的情況下完成。結(jié)果突出將端到端視覺(jué)運(yùn)動(dòng)策略擴(kuò)展到速度和精度至關(guān)重要的復(fù)雜工業(yè)應(yīng)用上的潛力。
學(xué)習(xí)現(xiàn)實(shí)世界人形機(jī)器人的起身策略
本文開(kāi)發(fā)學(xué)習(xí)控制器,使人形機(jī)器人能夠在各種地形上從各種跌倒姿勢(shì)中站起來(lái)。人形機(jī)器人容易跌倒,而它們對(duì)人類(lèi)跌倒恢復(fù)的依賴(lài)阻礙它們的部署。此外,由于人形機(jī)器人預(yù)計(jì)會(huì)在復(fù)雜地形和狹小工作空間的環(huán)境中工作(即對(duì)輪式機(jī)器人來(lái)說(shuō)太難的具有挑戰(zhàn)性場(chǎng)景),人形機(jī)器人在跌倒時(shí)可能會(huì)處于不可預(yù)測(cè)的配置,或者可能處于未知
大語(yǔ)言模型中的邏輯推理:綜述
隨著 OpenAI o3 和 DeepSeek-R1 等高級(jí)推理模型的出現(xiàn),大語(yǔ)言模型 (LLM) 已展示出卓越的推理能力。然而,它們進(jìn)行嚴(yán)格邏輯推理的能力仍是一個(gè)懸而未決的問(wèn)題。本綜述綜合人工智能研究的關(guān)鍵領(lǐng)域 LLM 中邏輯推理的最新進(jìn)展。它概述 LLM 中邏輯推理的范圍、其理論基礎(chǔ)以及用于評(píng)估
強(qiáng)化學(xué)習(xí)中 Sim-to-Real 方法綜述:基礎(chǔ)模型的進(jìn)展、前景和挑戰(zhàn)
這篇綜述論文從馬爾可夫決策過(guò)程的關(guān)鍵要素(狀態(tài)、動(dòng)作、轉(zhuǎn)換和獎(jiǎng)勵(lì))構(gòu)建模擬-到-現(xiàn)實(shí)技術(shù)的分類(lèi)。基于該框架,涵蓋從經(jīng)典到最先進(jìn)方法的全面文獻(xiàn),包括由基礎(chǔ)模型賦能的模擬-到-現(xiàn)實(shí)技術(shù),并討論模擬-到-現(xiàn)實(shí)問(wèn)題不同領(lǐng)域中值得關(guān)注的特點(diǎn)。總結(jié)使用可訪(fǎng)問(wèn)代碼或基準(zhǔn)的模擬-到-現(xiàn)實(shí)性能的正式評(píng)估過(guò)程,以及挑戰(zhàn)
HiRT:利用分層機(jī)器人Transformer 增強(qiáng)機(jī)器人控制
大型視覺(jué)-語(yǔ)言-動(dòng)作 (VLA) 模型利用強(qiáng)大的預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型 (VLM) 后端,由于其深刻的泛化能力而在機(jī)器人控制方面顯示出良好的前景。然而,成功是有代價(jià)的。它們對(duì)具有數(shù)十億個(gè)參數(shù)的 VLM 后端的依賴(lài)導(dǎo)致高昂的計(jì)算成本和推理延遲,將測(cè)試場(chǎng)景限制在主要的準(zhǔn)靜態(tài)任務(wù)上,并阻礙需要快速交互的動(dòng)態(tài)
從系統(tǒng) 1 到系統(tǒng) 2:大語(yǔ)言模型推理的綜述
本文概述首先簡(jiǎn)要概述基礎(chǔ) LLM 的進(jìn)展和系統(tǒng) 2 技術(shù)的早期發(fā)展,探討它們的結(jié)合如何為推理 LLM 鋪平道路。其討論如何構(gòu)建推理 LLM,分析其特性、實(shí)現(xiàn)高級(jí)推理的核心方法以及各種推理 LLM 的演變。此外,還概推理基準(zhǔn),對(duì)代表性推理 LLM 的性能進(jìn)行了深入比較。
Video2Policy:通過(guò)互聯(lián)網(wǎng)視頻規(guī)模化模擬中的操作任務(wù)
模擬為通才策略提供一種廉價(jià)的規(guī)模化訓(xùn)練數(shù)據(jù)的方法。為了可擴(kuò)展地從多樣化和現(xiàn)實(shí)的任務(wù)中生成數(shù)據(jù),現(xiàn)有的算法要么依賴(lài)于大語(yǔ)言模型 (LLM),這可能會(huì)產(chǎn)生機(jī)器人不感興趣的任務(wù);要么依賴(lài)于數(shù)字孿生,這需要仔細(xì)的真實(shí)-到-模擬對(duì)齊并且難以規(guī)模化。為了應(yīng)對(duì)這些挑戰(zhàn),引入 Video2Policy,這是一個(gè)利用
LAMS:LLM 驅(qū)動(dòng)自動(dòng)模式切換輔助遙操作
通過(guò)低自由度控制器(如操縱桿)遙操作高自由度 (DoF) 機(jī)器人操縱器,通常需要在控制模式之間頻繁切換,其中每種模式將控制器運(yùn)動(dòng)映射到特定的機(jī)器人動(dòng)作。手動(dòng)執(zhí)行這種頻繁切換會(huì)使遙操作變得繁瑣且效率低下。另一方面,現(xiàn)有的自動(dòng)模式切換解決方案(例如基于啟發(fā)式或基于學(xué)習(xí)的方法)通常是針對(duì)特定任務(wù)的,缺乏通
RoboHorizo??n:用于長(zhǎng)期機(jī)器人操作的 LLM-輔助多視圖世界模型
由于復(fù)雜的表示和策略學(xué)習(xí)要求,長(zhǎng)期機(jī)器人操作的有效控制具有挑戰(zhàn)性。基于模型的視覺(jué)強(qiáng)化學(xué)習(xí) (RL) 在解決這些挑戰(zhàn)方面表現(xiàn)出巨大潛力,但仍然面臨明顯的局限性,特別是在處理長(zhǎng)期環(huán)境中的稀疏獎(jiǎng)勵(lì)和復(fù)雜視覺(jué)特征時(shí)。為了解決這些限制,本文提出用于長(zhǎng)期任務(wù)的識(shí)別-感知-規(guī)劃-動(dòng)作 (RSPA) 流程,并進(jìn)一步
