张建伟:具身智能数据需求会是自动驾驶和大语言模型的1000倍

音符科技网

  “2025世界大会”于8月8日至12日在北京经济技术开发区开幕,“AI大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。光轮智能解决方案副总裁张建伟出席并演讲。

  以下为演讲实录:

  大家下午好,我是来自光轮智能的张建伟,今天和大家分享的主题是《合成数据加速具身智能进入物理世界》。今天下午也听了大家的分享,有做本体,有做模型的,但是大家提到更多的还是数据方面,当然也有做真实数据采集的。

  我们做的相对比较聚焦,主要在合成数据领域。

  我今天的分享聚焦两个点:

  之一部分,我们对于合成数据的认知。

  第二部分,介绍一下我们在做的一些事。

  首先看AI的发展,我们观察到两个趋势:

  一是AI正以多模块的方式往端到端方向发展,包括大语言模型、自动驾驶,也包括具身VLA领域。所谓端到端,就是用更多的神经 *** 替代更多模块,比如在自动驾驶领域——我之前也做智驾这一块——端到端的出现,让我们看到自动驾驶领域中,之前的感知、预测、规划多模块架构,正通过整体的端到端 *** 做替代。具身智能采用VLA的 *** 架构,本质上也是端到端的架构。端到端的出现意味着我们需要更多高质量数据来提升AI整体性能。

  二是Transformer *** 模型的出现及普遍应用,让我们看到AI正在往“以数据为中心”的方向发展,数据质量的好坏决定了AI的性能好坏。所以在这两个趋势下,我们可以说今天的AI时代其实是以数据为中心的时代。

  回到今天的话题,我们认为,具身智能的数据需求会是自动驾驶和大语言模型的1000倍。首先,前面也有嘉宾提到具身数据比较特殊,需求量大,因为今天的具身智能希望机器人能走进千家万户,应用到不同场景,比如工业场景、居家场景、商超场景。不同场景下,需要具身智能有更好的泛化性,这就需要更多更丰富的数据,所以数据需求量会比自动驾驶和大语言模型高三个数量级。

  第二,具身数据更强调物理交互。比如大语言模型可能是文本,VLM模型可能是文本+视觉,自动驾驶可能多了激光雷达和毫米波雷达,而具身智能更多关注与物理世界的交互,包括机器人的运动轨迹、力的反馈,前面也有嘉宾提到力学传感器。本质上我们希望具身智能能真实感受物理世界,所以对数据有更强的物理交互要求。

  第三,由于具身智能有不同形态——机器狗、人形机器人、机械臂,人形机器人又分轮式、双足等不同形态——具身智能所需的数据本身也是异构的,很难有统一标品化的机器人应用到不同场景,因此数据需求也是异构的。

  第四,目前具身智能的数据缺口非常大。不像大语言模型可以从 *** 上获取,自动驾驶可以通过数据采集车或量产车做数据闭环来获取海量数据;而具身智能考虑到数据模态的特殊性,亟需预训练数据、后训练数据以及强化学习训练数据。

  这是具身智能的数据的“数据金字塔”:底层希望利用海量互联网数据,本质是让模型对物理世界有基本认知;最上层希望通过真实世界的数据做微调,让具身算法落地到具体应用场景。真实数据的优势顾名思义是真实,但采集成本高、效率低。不仅要解决人工遥操问题,还要解决场景搭建及本体采购或 *** 问题,因此真实数据的采集成本很高。

  中间一层是合成数据,它的优势是理论上只要有足够多的GPU算力,就可以提供无 *** 的数据。由于合成数据在仿真环境下生成,所以泛化能力更强。因此,合成数据不仅能提供足量数据,也能提供高泛化性数据。但合成数据也有问题,存在仿真与真实世界的“DomainGap”。所以如果我们能通过技术手段不断缩小合成数据的“DomainGap”,就能赋能具身智能的发展。我认为“Sim2Real”不是非0即1的问题,而是可以通过技术手段不断缩小差异的问题。

  第二点认知是,我们不认为不存在合成数据的“永动机”,AGI的发展需要人类的示范数据。

  这一点可以类比大语言模型和自动驾驶:大语言模型如GPT的后训练阶段有不少RLHF数据,这些数据的提供者是OpenAI从各行业找来的专家(比如数学博士、物理学博士、医生),他们提供高质量语料库,进一步提升大模型性能;自动驾驶领域,端到端出现后需要“五星司机”的高质量驾驶数据,以提升自动驾驶算法的类人化能力。因此我们从大语言模型和自动驾驶中得到启发:它们的发展需要“人在环”提供高质量数据。具身智能我们认为也是类似的,包括前面提到的遥操采集数据,无论是在真实世界还是仿真中采集,本质上都需要有人在环示范。比如我们会示范如何教具身智能叠衣服、炒菜或做具体任务,这些数据其实来源于人的示范。

  整体上我们认为,具身智能的合成数据需要“人在环”的高质量示范,结合仿真环境的能力,提供更泛化的数据,以此放大人类操作数据的价值。

  接下来介绍我们在做的事。我们公司叫光轮智能,是一家以仿真技术驱动,从具身场景切入,提供视觉和物理世界“人在环”高质量合成数据的企业,希望通过合成数据放大人类对物理世界的示范价值。公司成立于2023年2月,是一家初创公司,我们的愿景是成为具身领域的ScaleAI。

  目前我们的产品形态包括:高质量3D资产:这是仿真中采集数据的原材料,包括资产、可泛化场景等。遥操工具链:适配不同硬件,且遥操链路在仿真中打通。强化学习平台:具身智能后训练阶段会用到,强化学习需要用GPU算力换取数据,因此需要大规模仿真。我们提供的强化学习训练平台,同时我们自己也会用强化学习来验证场景和资产。目前我们服务的客户包括国内外头部具身智能公司、一些主机厂和顶尖高校。

  下面快速展示产品Demo:

  之一个场景是冰箱资产。仿真中常见“看起来真实”的冰箱,而我们做的冰箱在视觉、交互及物理力学反馈上都足够真实。我们会对其进行物理层面的力学建模,比如左边示例中,冰箱门开启角度不同,反馈的力大小不同,这些力的大小是与真实冰箱对标采集的;右边Demo中冰箱抽屉的阻尼力反馈。这些能帮助具身智能采集力的相关数据信息。

  第二个Demo是农业场景的例子,源于客户的真实需求:需要高质量、可泛化的草莓(支持大小、颜色、不同成熟期的泛化),且场景需用于强化学习训练,因此这些草莓能被实操,供机械臂进行强化学习训练。我们不仅在视觉层面做了优化,也在物理及交互层面做了研发。

  有了资产后,下一步是搭建场景,场景与真实世界的应用场景相关。比如针对客户需求,我们会 *** 厨房、商超、工业、医学(如人体内脏)等场景资产。

  前面提到仿真可以泛化,我们不仅能在资产类型、光照上泛化,也能在布局层面泛化。比如商超场景中,资产本身及摆放都可泛化,且这里面的每个资产都能独立进行物理交互。

  有了这样的场景,就可以在仿真环境下进行遥操数据采集。由于不同机器人和数据需求不同,我们适配了不同遥操本体,包括基于VR、机械臂、4D鼠标的遥操方式。同时,基于VR的遥操存在一个问题:VR眼镜遮挡会导致灵巧手遥操设备看不到手指,影响遥操精准度。我们通过算法优化解决了这个问题——用多个相机采集数据,让灵巧手的位姿估计更精准。左边示例中,苹果很难通过遥操抓取,而经过算法优化后,遥操员可以轻松抓起苹果进行数据采集。

  最后分享一个案例:我们在仿真中采集数据,微调英伟达的GR00TN1基础模型,并实地部署到真机的效果。左边是人工在仿真环境下进行遥操数据采集,以及泛化仿真环境所采集的合成数据;右边是将用合成数据微调后的GR00TN1部署到宇树的H1上,落地到工厂场景的应用。

  此外,我们做的工具和资产也部分贡献给了开源社区,包括前面提到的场景和铰链资产,其中有我们开源的高质量厨房场景,也包括基于HuggingFace发布的机器人LeRobot,在仿真中采集数据、微调机械臂并最终实现真机部署,还包括仿真资产格式互转的相关插件。

  如果大家对合成数据感兴趣,欢迎联系我们进一步交流合作。谢谢!

  新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 特朗普又施压美联储!黄金3340附近窄幅震荡,技术面盯紧这一支撑
  • 伊朗军队宣布举行导弹演习,将使用新研发防御武器
  • 消费股估值合理 股息率超银行!现在是大胆入场的时机吗?林园这样说
  • 中国月度用电量首破万亿大关
  • 中天火箭(003009):中标湖北省气象工程技术中心(华中区域人工影响天气技术中心)采购项目,中标金额为1716.80万元
  • 广东惠州警方通报女子在麦当劳闹事:行拘5日
  • 海康威视(002415):中标上海申通地铁建设集团有限公司采购项目,中标金额为214.19万元
  • 卧龙电驱盘中跌停
  • 金山办公上半年业绩稳中有进 AI技术深度融合加速商业化落地
  • 乌外长称俄导弹击中乌西部一美国电子产品制造厂
  • 股市资金外流,新台币兑美元跌至5月来低点
  • 胡锡进:美国财长骂印度是奸商,中国得存个心眼
  • 抖音电商:处置虚假宣传违规账号3.2万个
  • 股价涨势惊人!农业银行再创历史新高
  • 阿里,大动作!分拆,赴港上市
  • 两家保理公司半年度业绩分化显著,3万亿商业保理新规或将出炉,业内经营承压
  • 首映|电影《再见,坏蛋》:说最狠的话,做最暖的事
  • 宇航员当摄影师,中国首部8K拍摄太空电影9月5日公映
  • 老铺黄金股价突然大跳水,上半年净赚22亿元,单店平均营收3亿元
  • 伊朗军队举行导弹演习
  • 大和:升药明生物目标价至35.5港元 RDM各环节强劲增长
  • A股中兴通讯成交额达200亿元
  • 私募年内平均收益11.94%,前“公募一哥”任泽松却栽了,核心产品净值仅剩7毛!牛市踏空真相曝光
  • Coinbase首席执行官预测2030年比特币将达到100万美元
  • 大和:升香港中华煤气目标价至7.1港元 上半年业绩符预期
  • 拍卖事故车的博车网冲刺港股失利,两年亏超3亿
  • 投资100亿办大学,曹德旺主业更旺了:福耀玻璃半年赚了48亿元,要给9万多股东发23亿元“大红包”,股价大涨
  • 杨德龙:各路资金积极入场 带动股市走牛
  • 比亚迪廉玉波,被提名中国工程院院士
  • 阿里速卖通将全球发售迷你Labubu
  • 林园:目前市场系统性风险可控,但需要一个轰轰烈烈的大牛市
  • 寒武纪逆市涨超2%,股价续创历史新高!科创人工智能ETF(589520)随市回调,资金迎来逢跌布局机会?
  • 孙俊奇已任延边大学副校长,主持学校行政工作
  • 国债期货涨幅扩大,30年期主力合约涨0.45%
  • 光大证券研究所所长高瑞东拟加盟光大保德信基金
  • 澳元四连跌创两个月新低,抄底机会来了?
  • 英国通胀升至3.8%,英镑兑美元承压回落,市场聚焦鲍威尔讲话
  • 中金:维持科伦博泰生物-B跑赢行业评级 升目标价至550港元
  • 美元兑日元徘徊147关口,市场等待鲍威尔讲话与日本CPI公布
  • 河南省人力资源和社会保障厅发布关于三起虚构身份骗取企业职工养老保险基金案件的通报
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码