具身智能行為學習需要什么數據?
數據是具身人工智能或具身智能(EI)發展的瓶頸。本文想闡明什么數據對于 EI 中的動作/行為訓練是必不可少的。首先簡要概述了人工智能在算法、計算和數據方面的發展(以及人工智能的分級)。然后重點介紹具身人工智能的動作/行為學習方法(包括世界模型和視覺-語言-動作模型)。對于數據收集,調查了機器人的類型
以目標為中心機器人操作的具身學習綜述
以目標為中心機器人操作的具身學習,是具身人工智能中一個發展迅速且充滿挑戰的領域。它對于推動下一代智能機器人的發展至關重要,最近引起了人們的極大興趣。與數據驅動的機器學習方法不同,具身學習側重于通過與環境的物理交互和感知反饋進行機器人學習,這使其特別適合于機器人操作。本文全面介紹該領域的最新進展,
多智能體編排概述
在本文中,我將解釋蒸餾過程,并通過 TensorFlow 的例子來演示它。通過本文的解讀,你將對模型蒸餾有更深入的理解和認識。 在本文中,我們探討了模型蒸餾的概念,這是一種允許更小、更簡單的學生模型模仿更大、更復雜的教師模型性能的技術。 我們逐步完成了使用 MNIST 數據集訓練教師模型的過程,然
具身智能體的異構協同:隨遇協同與人機協同
在具身智能領域,多智能體協同已逐漸成為學術界與工業界研究的焦點。與同構機器人相比,異構多智能體協同強調具有不同能力、形態的異構智能體構成合作團隊,因而可以通過更高效和靈活的協作方式,完成更為復雜的任務。近日,清華大學與北京郵電大學科研團隊,圍繞異構多智能體具身協同中的隨遇協同與人機協同任務分別開展了
基于大語言模型的多智能體系統綜述:工作流程、架構及挑戰
基于大語言模型(LLMs)的智能體利用其卓越的推理和規劃能力被提出,并在眾多任務中取得了顯著成功。值得注意的是,基于大語言模型的多智能體系統(MAS)被視為實現等同于或超越人類水平智能的通用人工智能的一條有前景的途徑。在本文中,我們對這些研究進行了全面的綜述,系統地回顧了基于大語言模型的多智能體系統
ScoreFlow:通過基于分數的偏好優化掌握 LLM 智體工作流程
最近的研究利用大語言模型多智體系統來解決復雜問題,同時試圖減少構建它們所需的手動工作量,從而推動自動智體工作流優化方法的發展。然而,現有方法在依賴離散優化技術時,由于表征限制、缺乏適應性和可擴展性差,仍然缺乏靈活性。本文用 ScoreFlow 解決這些挑戰,這是一個簡單但高性能的框架,它利用連續空間
OREAL:探索結果獎勵模型對數學推理學習的極限
推理能力,特別是解決復雜數學問題的能力,是通用智能的重要組成部分。 OpenAI 的 o 系列模型,在推理任務上取得了令人矚目的進展。然而,完整的技術細節仍未披露,人們認為肯定會采用的技術只有強化學習 (RL) 和長鏈思維。本文提出一種 RL 框架,稱為 OREAL,追求通過基于結果獎勵的強化學習在
智體推理:使用工具的推理 LLM 用于深度研究
本技術報告介紹智體推理(Agentic Reasoning),這是一個通過集成外部工具使用智體來增強大語言模型 (LLM) 推理的框架。與僅依賴內部推理的傳統 LLM 推理方法不同,智體推理動態地參與網絡搜索、代碼執行和結構化推理上下文記憶,以解決需要深入研究和多步邏輯推理的復雜問題。該框架引入思維
面向長范圍交互式 LLM 智體的強化學習
交互式數字智體 (IDA) 利用狀態數字環境的 API 來執行任務以響應用戶請求。雖然由指令調整的大語言模型 (LLM) 驅動 IDA 可以對多步交換中接口調用的反饋做出反應,但它們尚未在各自的數字環境中進行訓練。之前的方法在 AppWorld 等復雜基準測試中完成的任務不到一半。本文提出一種強化學
LGDRL:大語言模型引導深度強化學習,助力自動駕駛決策
本研究提出了一種新穎的“大型語言模型引導深度強化學習”(LGDRL)框架,旨在解決自主駕駛中的決策問題。該框架通過集成基于大型語言模型(LLM)的駕駛專家,顯著提高了深度強化學習(DRL)的學習效率和決策性能。實驗結果表明,LGDRL方法在復雜駕駛場景中實現了90%的任務成功率,并有效減少了對人類專
邁向大型推理模型:大語言模型強化推理綜述
本文探討了大語言模型(LLM)推理能力的發展,重點分析了OpenAI的o1系列模型及其在復雜任務(如數學、編程和科學問題解決)中的卓越表現。o1系列代表了人工智能推理能力的重要進展,在多個挑戰性基準測試中取得了優異的成績,展現了有效的知識整合、系統性問題分解和一致性推理等顯著特點。
DaDu-E:重新思考大語言模型在機器人計算流水線中的作用
DaDu-E是一種創新的機器人規劃框架,旨在通過集成輕量級的大型語言模型(LLM)、封裝的機器人技能指令、強大的反饋系統和記憶增強機制,提升機器人在動態環境中的任務執行能力。與傳統的開環系統相比,DaDu-E采用閉環規劃方法,使機器人能夠主動感知和適應環境變化,優化計算成本,同時保持高效的任務成功率
ASAP:對齊模擬和真實世界物理,實現敏捷的人形機器人全身技能
文章介紹了一個名為ASAP(Aligning Simulation and Real-World Physics)的框架,旨在解決仿真與現實世界物理之間的動態不匹配問題,從而使類人機器人能夠實現靈活的全身技能。ASAP包含兩個階段:第一階段在仿真環境中預訓練運動跟蹤策略,第二階段在現實世界中進行策略
CoA:通過Affordance鏈式改進視覺-語言-動作模型
本文介紹了一種名為Chain-of-Affordance (CoA)的新方法,旨在提升機器人視覺-語言-行動(VLA)模型的性能。該方法通過整合四種關鍵的“可供性”類型(對象可供性、抓取可供性、空間可供性和運動可供性),幫助機器人在復雜的多任務環境中更好地理解和執行任務。CoA模型通過逐步推理,優化
VTAO-BiManip:帶目標理解的掩碼視覺-觸覺-動作預訓練,用于雙手靈巧操作
本文介紹了一種名為VTAO-BiManip的新型框架,旨在提高機器人在雙手靈巧操作中的表現。該框架結合了視覺、觸覺和動作的預訓練,增強了物體理解能力,以促進課程強化學習(RL),實現類人雙手操作。研究指出,現有的單手操作技術在處理復雜的雙手任務時存在局限,因此VTAO-BiManip通過引入手部運動
AnyPlace:面向機器人操作任務的通用物體放置方法
文章介紹了一種名為AnyPlace的機器人操作方法,旨在解決物體放置任務中的挑戰。該方法采用兩階段的策略,首先利用視覺語言模型(VLM)確定潛在的放置位置,然后通過低級別的放置姿態預測模型進行精確的放置姿態預測。AnyPlace使用完全合成的數據集進行訓練,包含1489種生成的物體和5370種放置姿
OmniManip:機器人在非結構化環境中進行精確操作
OmniManip是一種新穎的開放詞匯操控方法,旨在解決機器人在非結構化環境中進行精確操作的挑戰。該方法通過對象中心的交互原語,將高層次的視覺語言模型(VLM)推理與低層次的操作精度相結合,具備閉環規劃和執行能力。OmniManip的核心在于定義對象的典范空間,以其功能性為基礎,描述交互原語(如交互
RoboGrasp:提高機器人控制穩健的通用抓取策略
RoboGrasp是一種通用抓取策略框架,旨在提高機器人抓取的精確性、穩定性和泛化能力。該框架結合了預訓練的抓取檢測模型與機器人學習,通過利用物體檢測和分割任務的視覺指導,顯著提升了抓取成功率。實驗結果顯示,RoboGrasp在少樣本學習和抓取提示任務中成功率提高了34%。其架構基于擴散方法,適用于
RAD:無動作推理的策略泛化架構
本文摘錄自2025年2月-斯坦福的論文“Action-Free Reasoning for Policy Generalization”。 介紹了一種名為“通過無動作數據進行推理”(RAD)的新方法,用于訓練機器人策略。RAD通過從人類視頻中提取語言推理鏈,結合機器人演示數據,來提升機器人在新任務
LIMO:“少即是多” LLM 推理模型輕量化
文章介紹了一種新的推理模型LIMO(Less-Is-More for Reasoning),該模型挑戰了傳統觀點,即復雜推理任務需要大量訓練數據。研究表明,LIMO只需817個精心策劃的樣本,就能在數學推理任務中實現57.1%的準確率,顯著優于以往模型。LIMO的成功基于兩個關鍵因素:模型在預訓練階
UniAct:增強具身基礎模型的通用動作
本文節選自2025年1月-清華大學、商湯科技、北京大學、北郵和上海AI實驗室的論文“Universal Actions for Enhanced Embodie
UP-VLA:具身智體的統一理解與預測模型
本文節選自2025年1月清華大學和上海姚期智研究院的論文“UP-VLA: A Unified Understanding and Prediction Mode
通過強化學習和推理規模化推進語言模型推理
本文節選自2025年1月--清華和智譜的論文《Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling》。
動作預測:通過聯合去噪過程進行視覺策略學習
本文節選自2024年11月--清華大學、上海姚期智研究院、上海AI實驗室和UC Berkeley的論文《Prediction with Action: Visual Policy Learning via Joint Denoising Process》。
適用于通用和專業應用的視覺-語言大模型:綜述
視覺語言模型 (VLM) 已成為學習視覺和語言統一嵌入空間的有力工具。受大語言模型的啟發,視覺-語言大模型 (VLLM) 在構建通用 VLM 方面受到越來越多的關注,這些模型已展示出強大的推理和多任務能力。盡管 VLLM 取得了重大進展,但相關文獻仍然有限,特別是從綜合應用角度來看,涵蓋視覺(圖像、
大語言模型 deepseek 如何助力自動駕駛
大語言模型 deepseek 如何助力自動駕駛,本文首先討論自動駕駛(AD)有哪些環節構成,其次討論 deepseek 的來龍去脈,再討論自動駕駛哪些環節可以用到 deepseek,最后總結和展望。
DeepSeek-V3 技術報告(下)
DeepSeek-V3 技術報告
DeepSeek-V3 技術報告(上)
DeepSeek-V3 技術報告
SRMT:一種融合共享記憶與稀疏注意力的多智能體強化學習框架
在人工智能(AI)和強化學習(RL)領域的發展進程中,長期記憶維持和決策優化一直是核心技術難點。傳統強化學習模型在經驗回溯方面存在局限性,這顯著制約了其在復雜動態環境中的應用效果。自反射記憶Transformer (SRMT)作為一種新型記憶增強型transformer架構,專注于提升基于AI的決策
DeepSeekMath:在開放語言模型中突破數學推理的極限
數學推理因其復雜性和結構性而對語言模型構成了重大挑戰。本文引入 DeepSeekMath 7B,它繼續使用來自 Common Crawl 的 120B 個數學相關tokens以及自然語言和代碼數據,對 DeepSeek-Coder-Base-v1.5 7B 進行預訓練。DeepSeekMath 7B
用 CoT 生成圖像: 逐步驗證并強化圖像生成
思維鏈 (CoT) 推理已在大模型中得到廣泛探索,以解決復雜的理解任務。然而,這種策略是否可以應用于驗證和強化圖像生成場景仍然是一個懸而未決的問題。本文全面研究 CoT 推理增強自回歸圖像生成的潛力。其專注于三種技術:規模化測試-時間計算,進行驗證、直接偏好優化 (DPO) 的模型偏好對齊、以及集成
VLM-RL:用于安全自動駕駛的統一視覺語言模型和強化學習框架
VLM-RL,是一個統一的框架,它將預訓練的視覺-語言模型 (VLM) 與 RL 相結合,以使用圖像觀察和自然語言目標生成獎勵信號。VLM-RL 的核心是對比語言目標 (CLG) 作為獎勵范式,它使用正面和負面的語言目標來生成語義獎勵。進一步介紹一種分層獎勵合成方法,將基于 CLG 的語義獎勵與車
十大主流聯邦學習框架:技術特性、架構分析與對比研究
聯邦學習(Federated Learning,FL)作為機器學習領域的關鍵技術范式,實現了在保障數據隱私的前提下進行分布式模型訓練。 為推進聯邦學習模型的研發與部署,業界開發了多種開源及商業框架工具。這些基礎庫為聯邦學習的技術實踐提供了核心支持,包括模型訓練、數據安全保護、通信協議以及結果聚合等
PyTorch生態系統中的連續深度學習:使用Torchdyn實現連續時間神經網絡
神經常微分方程(Neural ODEs)是深度學習領域的創新性模型架構,它將神經網絡的離散變換擴展為連續時間動力系統。與傳統神經網絡將層表示為離散變換不同,Neural ODEs將變換過程視為深度(或時間)的連續函數。這種方法為機器學習開創了新的研究方向,尤其在生成模型、時間序列分析和物理信息學習等
DeepSeek 技術報告解析:為什么 DeepSeek-R1 可以用低成本訓練出高效的模型
DeepSeek-R1 通過創新的訓練策略實現了顯著的成本降低,同時保持了卓越的模型性能。本文將詳細分析其核心訓練方法。
視覺落地研究的綜述
視覺落地(visual grounding)又稱為參考表達理解和短語落地。它涉及根據給定的文本描述在圖像中定位數個特定區域。此任務的目標是模擬社交對話中普遍存在的參考關系,使機器具備類似人類的多模態理解能力。因此,它在各個領域都有廣泛的應用。然而,自 2021 年以來,視覺落地取得重大進展,出現了諸
Kimi K1.5:利用 LLM 規模化強化學習
語言模型預訓練與下一個 token 預測已被證明對于擴展計算有效,但受限于可用的訓練數據量。規模化強化學習 (RL) 為人工智能的持續改進開辟新的方向,有望使大語言模型 (LLM) 能夠通過學習帶獎勵的探索來擴展其訓練數據。然而,之前發表的研究并沒有產生有競爭力的結果。鑒于此,本文報告 Kimi k
FAST:視覺-語言-動作模型的高效動作 Token 化
自回歸序列模型,例如基于 Transformer 的視覺語言動作 (VLA) 策略,可以非常有效地捕捉復雜且可泛化的機器人行為。然而,這樣的模型要求選擇連續動作信號的 token 化,這決定模型預測的離散符號如何映射到連續的機器人動作。當前基于簡單的按維度、按時間步長分 bin 方案的機器人動作 t
機器人操控可變形體的綜述:最新進展、尚未解決的挑戰和新前沿
機器人的可變形體操作 (DOM) 在工業、服務和醫療保健等各個領域有著廣泛的應用。然而,與剛性體的操作相比,由于可變形體 (DO) 的狀態空間維數無限且其動態復雜,DOM 對機器人的感知、建模和操作提出了重大挑戰。計算機圖形學和機器學習的發展為 DOM 帶來了新技術。這些基于數據驅動范式的技術可以解
醫療保健領域具身智能的綜述:技術、應用和機遇
全球醫療保健系統在效率、可訪問性和個性化方面面臨著持續的挑戰。現代人工智能 (AI) 已顯示出通過精確的預測模型解決這些問題的前景;然而,由于其與臨床工作流程的有限整合,其影響仍然受到限制。在多模態大型語言模型和世界模型等現代人工智能技術的推動下,具身人工智能 (EmAI) 代表一個變革性前沿,提供
室內具身智能中的語義建圖—全面綜述和未來方向
智能具身智體(例如機器人)需要在陌生的環境中執行復雜的語義任務。在智體需要具備的眾多技能中,構建和維護環境的語義地圖對于長期任務至關重要。語義地圖以結構化的方式捕獲有關環境的信息,允許智體在整個任務過程中引用它進行高級推理。雖然現有的具身智能綜述側重于一般進展或導航和操作等特定任務,但本文全面回顧具
F-TAC:嵌入機械手高分辨率觸摸功能可實現自適應類人類抓握
開發適應現實世界動態的機械手仍然是機器人技術和機器智能領域的一項基本挑戰。盡管在復制人手運動學和控制算法方面取得了重大進展,但機器人系統仍然難以在動態環境中匹敵人類的能力,這主要是由于觸覺反饋不足。為了彌補這一差距,推出 F-TAC 手,一種仿生手,其 70% 的表面積具有高分辨率觸覺感應(0.1
WiseAD:基于視覺-語言模型的知識增強型端到端自動駕駛
隨著視覺語言模型 (VLM) 的快速發展,人類通用知識和令人印象深刻的邏輯推理能力的出現,推動人們對將 VLM 應用于高級自動駕駛任務(如場景理解和決策)的興趣日益濃厚。然而,深入研究知識熟練程度(尤其是基本駕駛專業知識)與閉環自動駕駛性能之間的關系需要進一步探索。本文研究基本駕駛知識的深度和廣度對
DeepSeek-R1:通過強化學習激勵LLM的推理能力
本文介紹第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一種通過大規模強化學習 (RL) 訓練的模型,無需監督微調 (SFT) 作為初步步驟,表現出卓越的推理能力。通過 RL,DeepSeek-R1-Zero 自然呈現出許多強大推理行
SafeDrive:大語言模型實現自動駕駛汽車知識驅動和數據驅動的風險-敏感決策
SafeDrive 是一個基于 LLM 的知識和數據驅動的風險敏感決策框架,SafeDrive 結合自然駕駛數據和高風險場景,使 AV 能夠在復雜、動態的環境中做出自適應的安全決策。
DriveDreamer4D: 世界模型是 4D 駕駛場景表征的有效數據機器
本文提出的 DriveDreamer4D,它利用世界模型先驗增強 4D 駕駛場景表示。具體來說,利用世界模型作為數據機器來合成新軌跡視頻,其中明確利用結構化條件來控制交通元素的時空一致性。此外,還提出表親數據訓練策略,以促進真實數據和合成數據的合并,從而優化 4DGS。DriveDreamer4D
LargeAD:用于自動駕駛的大規模跨傳感器數據預訓練
視覺基礎模型 (VFM) 的最新進展徹底改變 2D 視覺感知,但它們在 3D 場景理解方面的潛力,特別是在自動駕駛應用中的潛力仍未得到充分探索。LargeAD,是一個多功能且可擴展的框架,專為跨各種現實世界駕駛數據集進行大規模 3D 預訓練而設計。利用 VFM 從 2D 圖像中提取語義豐富的超像素,
PLUTO:突破基于模仿學習的自動駕駛規劃極限
PLUTO,突破基于模仿學習的自動駕駛規劃極限。改進來自三個關鍵方面:一種縱向橫向感知模型架構,可實現靈活多樣的駕駛行為;一種創新的輔助損失計算方法,可廣泛應用且可高效地進行批量計算;一種利用對比學習的訓練框架,采用一系列數據增強,以規范駕駛行為并促進對底層交互的理解。用大規模真實世界 nuPlan
探索決策策略的緊要測試場景:一個LLM方法
決策策略的最新進展已在自動駕駛和機器人等領域取得重大進展。然而,由于存在可能威脅其可靠性的關鍵場景,測試這些策略仍然至關重要。盡管研究正在進行中,但由于決策策略及其環境的復雜性,測試效率低和多樣性有限等挑戰仍然存在。為了應對這些挑戰,本文提出一個適應性強的大語言模型 (LLM) 驅動的在線測試框架,
LLaDA:大模型策略適配下隨時隨地駕駛
使駕駛行為適應新環境、新規則和新法律是自動駕駛中一個長期存在的問題,其阻礙了無人駕駛汽車(AV)的廣泛部署。本文介紹LLaDA,一種簡單而強大的工具,使人類駕駛員和自動駕駛汽車的任務和運動規劃適應新地點的交通規則,使其能夠隨時隨地駕駛。LLaDA用大語言模型(LLM)解釋當地駕駛員手冊中的交通規則,
