对话招商局首席科学家张家兴:具身智能要在大模型下一次重大进步来临前“先活下来”

音符科技网

界面新闻记者 | 陆柯言 李彪

界面新闻编辑 | 文姝琪

2025年,国内具身智能机器人行业掀起了一场 “百机大战”。天眼查等数据平台显示,2024年底时,国内人形机器人整机公司已经超过了80家,全球范围内总共约有150家;而仅今年上半年,中国新增人形机器人公司数量就超过了去年一整年,同时还有更多新创企业排队入场。

“除了世界上少数团队专注于foundation model(注:OpenAI、Anthropic、阿里通义千问、DeepSeek研发的千亿参数底层基础模型)研发外,当下AI创业更具商业化潜力的两大分支,一个是Agentic AI(注: *** 式AI,即AI Agent智能体),另一个就是具身智能。” 招商局集团首席科学家、狮子山人工智能实验室主任张家兴近期接受界面新闻专访时表示。

张家兴是国内最早一批投身AI研究的学者。他形容自己是一个 “追着技术前沿跑的人”:早年在微软亚洲研究院钻研大数据框架和深度学习,随后在蚂蚁金服、360数科带队开展 AI 深度学习落地探索;2021年加入IDEA研究院,担任认知计算与自然语言研究中心负责人,主导“封神榜”大模型项目;2024年正式加入招商局集团,筹办狮子山研究院,研究方向是AI与具身智能结合、应用于机器人研发。

招商局首席科学家张家兴 采访对象供图

虽然看起来每一段职业经历都是研究当时最热门的前沿技术,但在张家兴理解中,“每一步都是为下一步做铺垫”—— 深度学习以数据为基础,只有积累足够数据,才可能开展深度学习研究;而早期大模型正是从深度学习研究中衍生出的AI新领域。

而对于具身智能的爆发,张家兴认为,真正的转折点出现在2023年前后。行业发现VLA这类模型(Vision-Language-Action Model,即“视觉 - 语言 - 动作”模型,即强调通过整合视觉感知、语言理解和动作生成能力,实现机器人从环境观察到指令执行)已经能作为机器人 “大脑”,强大到可以驱动人形机器人、机器狗完成一系列高难度任务。在行业真正意识到技术的潜力后,如何将 AI 模型应用于机器人研发,成为了如今具身智能领域最前沿的创新趋势。

从去年9月在香港成立以后,招商局集团已经完成了狮子山研究院的团队组建,近期还首次发布了成立后的两项新产品:一是基于 Agentic AI研究的智能体强化学习训练推理系统L0系统;二是基于其柯基VLA 模型(Corgi-VLA)开发的四足机器狗。借助模型能力,这款机器狗仅通过16个小时真实环境数据训练,就能实现跟在人身后 “近身智能随行”,实时陪伴逛街。

指令: 跟随前面穿着黑色衣服和短裤拎着香蕉的人走
指令:  走到东森行商店门口,然后停止

以下是专访实录(内容经界面新闻调整)

界面新闻:从微软亚洲研究院、蚂蚁、360与IDEA研究院,到如今加入招商局集团,如何看待自己的职业经历?

张家兴:我的职业经历始终与科技前沿技术同步。在大数据时代,我们是全球最早一批研发大数据框架的团队;进入深度学习时代,我们同样是最早涉足深度学习研究的群体。

这几段经历之间的关联性可以这样理解:每一步都是为下一步做铺垫。举个例子,深度学习无疑是以数据为基础,必须先夯实大数据根基,积累足够数据,才能开展深度学习研究。

深度学习之后,2021年左右我开始投身大模型研究。大模型早期正是基于深度学习发展而来,简单说,它通过扩大模型规模,形成了一个新的研究领域。

大模型进一步发展衍生出不同分支。当下除少数团队专注于基础模型的研发与迭代外,我认为更具前景的两大分支就是Agentic AI和具身智能。

具身智能的概念2023年才开始走红,这主要得益于大模型的发展。当时行业发现,VLA这类端到端模型已具备强大能力,能够直接驱动机器人完成各类任务,其中一些任务是此前机器人领域难以想象的。我借此机会进入具身智能领域,同时也兼顾相关AI模型技术的研究。

界面新闻:从这一角度看,在AI时代,最重要的是技术、人才、资金还是其他因素?

张家兴:在深度学习时代,前沿技术创新多由老师带领学生开展,“人工智能三巨头” 杰夫・辛顿(Jeff Hinton)、杨立昆(Yan LeCun)、约书亚・本吉奥(Yoshua Bengio)都是在高校科研院所带学生完成重要的研究工作。

自OpenAI起,整个AI行业进入新的研发模式,即以团队为核心进行前沿技术创新。OpenAI、DeepSeek、美国人形机器人初创企业Figure均是这类模式的代表。

这些团队规模通常不大,约100人左右,成员被高效组织起来,聚焦共同目标,可能是一篇论文、一个模型或一台机器人。他们发表的每篇论文,作者列表往往多达几十人。

如今的核心问题变成了如何组建这样的团队?如何吸引人才并将其组织起来?我们研究院依托招商局这个国企平台组建团队,方式虽有不同,但本质上仍是团队建设问题。

界面新闻:您之前提到,当前大模型最重要的两个分支是Agentic AI和具身智能,公司最新发布了基于Agentic AI研究的L0系统。与传统AI智能体相比,它的主要突破是什么?

张家兴:L0主要有两项创新突破:一是在模型推理过程中实现自然语言与编程语言的深度融合;二是基于强化学习让模型通过 “试错进步” 实现 “探索式学习”。

自然语言与编程语言的结合,核心是将人类日常语言与计算机可理解的代码相融合。今年行业内热门的传统 Agent,均通过自然语言向计算机输入提示词(Prompt)与上下文(context)。自然语言用于驱动人类行动,而编程语言专为驱动计算机设计,在调用 API、访问数据库、连接真实世界与计算机互动等方面更为精准。我们在设计Agent时,便思考能否将自然语言与编程语言结合。

具体而言,我们在L0系统中选用了更流行的AI编程语言Python。Agent运行时,可实现自然语言与编程语言的交互:自然语言生成Python代码,代码在编程语言环境中执行后,将结果返回至自然语言环境,再生成新代码、执行并返回结果,形成持续交互。在此过程中,Agent推理思维链的 “状态” 可通过编程语言形式存储,其存储规模可视为无限大,计算机内存、硬盘乃至互联网的容量有多大,存储规模就能达到多大,这些极大拓展了现有大语言模型的能力。

探索式学习仍基于强化学习,类似人类通过不断尝试、获取反馈来学习。模型能够自主生成样本和训练数据,我们通过特定评判机制判断样本优劣,再利用反馈结果反过来训练模型。模型通过自主 “探索”,根据反馈调整自身,基于这种模式,其性能比普通模型提升近一倍。

界面新闻:这些创新的应用场景是什么?

张家兴:AI大语言模型的“Scale Law”法则强调,在模型研发与应用中,通过增加资源、扩大规模来提升性能和效果。

我们目前已开源L0系统,希望为行业提供一套加速训练框架。如今无论是何种Agent,包括具身智能机器人本身也被行业视为一种“Agent”,基于这套加速训练框架,我们都希望能提高模型所在数字空间与真实物理世界的互动效率,加快速度并降低成本。

界面新闻:你曾提到过,从2025年开始,Agentic AI领域进入 “Zero 时代”,零样本、模型探索合成数据、“算力 = 数据” 是这个时代的特征?

张家兴:深度学习领域,尤其是OpenAI之后流行的“Scaling Law”法则,使得基于数据和预训练的 “暴力美学” 成为绝对真理,开展任何工作都需先准备数据。

但在当下,在预训练大模型能以极低成本获取的情况下,大模型本身已具备基本能力,更重要的是,它实际上拥有自主开展exploration(探索式学习)的能力。简单说,对于任何任务,它一开始就能做得差不离。这种情况下,我们完全可以让大模型采用“Zero-Shot”模式,即不预先准备数据,而是从零开始让其在与环境的交互中生成数据,只要我们有能评判优劣的机制即可。

而在行业认可的评判标准尚未建立前,不预先准备数据,模型开始基于探索式学习时,犯错的代价便是消耗算力 —— 错误越多、成功率越低,算力浪费就越严重。因此,未来行业竞争将聚焦算力,谁拥有更多算力,就能开展更大规模的exploration,探索更多可能性。

界面新闻:在具身智能领域,如何看待VLA的前景?

张家兴:我认为VLA是当下的唯一选择。未来是否会出现更多选择,我们可以拭目以待。

可以说VLA是这一波具身智能引发行业关注的最重要原因。正是因为行业发现,经过大规模预训练的大模型在驱动机器人方面展现出潜力,才掀起了这具身智能的热潮。

界面新闻:如何看待行业热议的VLA作为端到端模型存在的 “技术黑箱” 和实现 *** 上的不可解释性问题?

张家兴:我不建议在这一问题上花费过多时间争论。世界上不可解释的事物众多,无论是人类大脑还是AI,复杂系统的不可解释性是必然的。

界面新闻:现阶段VLA模型有哪些独特的优势?

张家兴:现阶段VLA是让机器 “懂场景、有温度” 的更优解。以我们的Corgi-VLA模型为例,它有三大设计:混合注意力机制让它优先关注“人”的状态,比如在商场中始终锁定随行的老人而非货架上的商品,动态动作生成模块让动作更柔和,机器狗转身时会放慢速度避免惊吓到人,多模态融合训练让它能理解指令背后的真实需求,这些细节都是技术温度的载体。

从数据训练角度,Corgi-VLA模型通过对不同模态数据的高效融合,减少对单一模态大规模数据的依赖,以相对少量多模态数据训练出更具泛化性与适应性的模型,例如结合少量视觉图像、语言指令和动作反馈数据,实现对复杂场景的精准理解与执行。

为达成这一目标,在模型训练数据上,我们会不断探索用更少、更具代表性的数据,训练出能捕捉生活丰富细节、理解人类复杂情感的模型,让机器人在有限数据学习中,也能实现与人类深度、温暖的交互。

界面新闻:具身智能将模型引入机器人研发,目标是达到何种效果?

张家兴:单纯从传统机器人技术来看,像工厂产线的固定任务(如分拣、搬运),传统工业机器人、机械臂在特定软件算法与硬件配合下,其实表现不错。

而VLA模型在具身领域的研究,更多是将大语言模型的成功延伸至物理世界,bring large models into physical world,这一过程中更重要的是引入大语言模型已经具备的通用性。

通用性具体表现包括:一是能听懂人类语言,可通过自然语言接收指令;二是具有高度泛化性,能随场景变化,准确完成新任务。

换句话说,我们研究VLA、探索具身智能,就是要打造机器人版ChatGPT。

界面新闻:有质疑声称,今年新成立的具身智能机器人企业可能在几年后淘汰一半,您如何看待这一观点?行业的下一个赛点是什么?

张家兴:我认为具身智能真正的机会在于,能否在大模型的下次重大进步来临前,先确保自身存活。

“活着”的核心是“技术硬实力 + 人文软实力”的双重突破。一方面技术上要持续提升VLA模型的效率与泛化能力,硬件上降低成本让更多家庭用得起;另一方面更重要的是坚守科技创业的初心 , 不盲目追求酷炫功能,而是深耕“解决真需求”的场景。

文章版权声明:除非注明,否则均为音符科技网 wap.luzhiwang.com原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • “全球关注”,普京将“创造历史”
  • 宇树王兴兴:AI创新永远伴随随机性,机器人领域需要全球共创
  • 广州国企珠实七个楼盘推出保价:房子买贵可补差价年底有效
  • 特朗普与普京将在阿拉斯加会晤美媒爆料:泽连斯基可能参会
  • 俄罗斯西南部一建筑发生燃气爆炸,已致16人受伤
  • 俄罗斯西南部一建筑发生燃气爆炸 已致16人受伤
  • 虚拟F1中国公开赛首次落地贵阳,打造赛事经济新标杆
  • 非农“暴雷”一周后,美股和企业债给出回应:大涨!
  • 特朗普关税政策刚生效,美国税局局长就卸任,财长贝森特将暂代
  • 中央批评上海核酸造假,上海核酸检测暴增
  • 辛鲍姆否认美军将入境墨西哥打击贩毒集团
  • 冠军赛爆冷背后:林诗栋高端局战力欠佳,陈熠成女队最大惊喜
  • 广州国企珠实七个楼盘推出保价:房子买贵可补差价,年底有效
  • 美国消费者砍支出!快餐早餐销量下滑,人们在家吃甚至不吃
  • 【厦门新增2例确诊病例,厦门新增确诊病例1例】
  • GPT-5第一波用户反馈:笨拙,还我4o
  • 宇树科技王兴兴:对VLA模型持怀疑态度
  • 这是高盛顶尖交易员对本周市场的思考
  • 一时“嘴馋”深夜开车进玉米地偷玉米,2人被行政拘留
  • 内蒙古通辽新增2例感染者,内蒙古通辽新增2例感染者行动轨迹
  • 国家统计局公布7月CPI数据!肉、蛋、菜价格同比明显下降,飞机票、旅游、宾馆住宿价格环比上涨
  • 湖北启动防汛四级应急响应
  • 美国得州议员怒斥选区重划种族主义
  • 泽连斯基回应乌克兰领土相关问题:乌宪法里有答案
  • 湖南第一师范学院发布声明:暂未开设非全日制研究生培养项目
  • 水利部针对5省市启动洪水防御Ⅳ级应急响应
  • 为什么机器人没大规模应用?王兴兴:硬件够用了,但AI完全不够用
  • 锡商银行股权变更获批,国联集团受让5亿股股份
  • 湖北恩施女教师暴力反击学生,被行拘
  • 【市场聚焦】纯碱:供给压力延续
  • 【市场聚焦】生猪:张弛之道
  • 规培生实习生及后勤被禁入职工餐厅吃饭,只能在患者餐厅就餐,陕西榆林中医院:正协商
  • 王兴兴:人形机器人目前最大难点在模型层面,还没达到类似ChatGPT的临界点
  • 游客自己带帐篷到沙滩被收费?辽宁兴城通报
  • 泰国陆军说3名士兵在泰柬边境巡逻时触雷受伤
  • 普特会将在阿拉斯加举行,该州州长办公室和议员回应
  • 美俄峰会将登场,特朗普:协议将涉及俄乌领土互换
  • 两大电网余缺互济保供应(经济新方位)
  • 山洪爆发致甘肃榆中一河道涨水3米,监控拍下洪水冲走10余辆汽车,1分钟清空停车场
  • 美俄领导人阿拉斯加会晤将聚焦哪些问题?
  • 目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码