对话招商局首席科学家张家兴：具身智能要在大模型下一次重大进步来临前“先活下来”

界面新闻记者 | 陆柯言李彪
界面新闻编辑 | 文姝琪

2025年，国内具身智能机器人行业掀起了一场 “百机大战”。天眼查等数据平台显示，2024年底时，国内人形机器人整机公司已经超过了80家，全球范围内总共约有150家；而仅今年上半年，中国新增人形机器人公司数量就超过了去年一整年，同时还有更多新创企业排队入场。

“除了世界上少数团队专注于foundation model（注：OpenAI、Anthropic、阿里通义千问、DeepSeek研发的千亿参数底层基础模型）研发外，当下AI创业更具商业化潜力的两大分支，一个是Agentic AI（注： *** 式AI，即AI Agent智能体），另一个就是具身智能。” 招商局集团首席科学家、狮子山人工智能实验室主任张家兴近期接受界面新闻专访时表示。

张家兴是国内最早一批投身AI研究的学者。他形容自己是一个 “追着技术前沿跑的人”：早年在微软亚洲研究院钻研大数据框架和深度学习，随后在蚂蚁金服、360数科带队开展 AI 深度学习落地探索；2021年加入IDEA研究院，担任认知计算与自然语言研究中心负责人，主导“封神榜”大模型项目；2024年正式加入招商局集团，筹办狮子山研究院，研究方向是AI与具身智能结合、应用于机器人研发。

虽然看起来每一段职业经历都是研究当时最热门的前沿技术，但在张家兴理解中，“每一步都是为下一步做铺垫”—— 深度学习以数据为基础，只有积累足够数据，才可能开展深度学习研究；而早期大模型正是从深度学习研究中衍生出的AI新领域。

而对于具身智能的爆发，张家兴认为，真正的转折点出现在2023年前后。行业发现VLA这类模型（Vision-Language-Action Model，即“视觉 - 语言 - 动作”模型，即强调通过整合视觉感知、语言理解和动作生成能力，实现机器人从环境观察到指令执行）已经能作为机器人 “大脑”，强大到可以驱动人形机器人、机器狗完成一系列高难度任务。在行业真正意识到技术的潜力后，如何将 AI 模型应用于机器人研发，成为了如今具身智能领域最前沿的创新趋势。

从去年9月在香港成立以后，招商局集团已经完成了狮子山研究院的团队组建，近期还首次发布了成立后的两项新产品：一是基于 Agentic AI研究的智能体强化学习训练推理系统L0系统；二是基于其柯基VLA 模型（Corgi-VLA）开发的四足机器狗。借助模型能力，这款机器狗仅通过16个小时真实环境数据训练，就能实现跟在人身后 “近身智能随行”，实时陪伴逛街。

以下是专访实录（内容经界面新闻调整）

界面新闻：从微软亚洲研究院、蚂蚁、360与IDEA研究院，到如今加入招商局集团，如何看待自己的职业经历？

张家兴：我的职业经历始终与科技前沿技术同步。在大数据时代，我们是全球最早一批研发大数据框架的团队；进入深度学习时代，我们同样是最早涉足深度学习研究的群体。

这几段经历之间的关联性可以这样理解：每一步都是为下一步做铺垫。举个例子，深度学习无疑是以数据为基础，必须先夯实大数据根基，积累足够数据，才能开展深度学习研究。

深度学习之后，2021年左右我开始投身大模型研究。大模型早期正是基于深度学习发展而来，简单说，它通过扩大模型规模，形成了一个新的研究领域。

大模型进一步发展衍生出不同分支。当下除少数团队专注于基础模型的研发与迭代外，我认为更具前景的两大分支就是Agentic AI和具身智能。

具身智能的概念2023年才开始走红，这主要得益于大模型的发展。当时行业发现，VLA这类端到端模型已具备强大能力，能够直接驱动机器人完成各类任务，其中一些任务是此前机器人领域难以想象的。我借此机会进入具身智能领域，同时也兼顾相关AI模型技术的研究。

界面新闻：从这一角度看，在AI时代，最重要的是技术、人才、资金还是其他因素？

张家兴：在深度学习时代，前沿技术创新多由老师带领学生开展，“人工智能三巨头” 杰夫・辛顿（Jeff Hinton）、杨立昆（Yan LeCun）、约书亚・本吉奥（Yoshua Bengio）都是在高校科研院所带学生完成重要的研究工作。

自OpenAI起，整个AI行业进入新的研发模式，即以团队为核心进行前沿技术创新。OpenAI、DeepSeek、美国人形机器人初创企业Figure均是这类模式的代表。

这些团队规模通常不大，约100人左右，成员被高效组织起来，聚焦共同目标，可能是一篇论文、一个模型或一台机器人。他们发表的每篇论文，作者列表往往多达几十人。

如今的核心问题变成了如何组建这样的团队？如何吸引人才并将其组织起来？我们研究院依托招商局这个国企平台组建团队，方式虽有不同，但本质上仍是团队建设问题。

界面新闻：您之前提到，当前大模型最重要的两个分支是Agentic AI和具身智能，公司最新发布了基于Agentic AI研究的L0系统。与传统AI智能体相比，它的主要突破是什么？

张家兴：L0主要有两项创新突破：一是在模型推理过程中实现自然语言与编程语言的深度融合；二是基于强化学习让模型通过 “试错进步” 实现 “探索式学习”。

自然语言与编程语言的结合，核心是将人类日常语言与计算机可理解的代码相融合。今年行业内热门的传统 Agent，均通过自然语言向计算机输入提示词（Prompt）与上下文（context）。自然语言用于驱动人类行动，而编程语言专为驱动计算机设计，在调用 API、访问数据库、连接真实世界与计算机互动等方面更为精准。我们在设计Agent时，便思考能否将自然语言与编程语言结合。

具体而言，我们在L0系统中选用了更流行的AI编程语言Python。Agent运行时，可实现自然语言与编程语言的交互：自然语言生成Python代码，代码在编程语言环境中执行后，将结果返回至自然语言环境，再生成新代码、执行并返回结果，形成持续交互。在此过程中，Agent推理思维链的 “状态” 可通过编程语言形式存储，其存储规模可视为无限大，计算机内存、硬盘乃至互联网的容量有多大，存储规模就能达到多大，这些极大拓展了现有大语言模型的能力。

探索式学习仍基于强化学习，类似人类通过不断尝试、获取反馈来学习。模型能够自主生成样本和训练数据，我们通过特定评判机制判断样本优劣，再利用反馈结果反过来训练模型。模型通过自主 “探索”，根据反馈调整自身，基于这种模式，其性能比普通模型提升近一倍。

界面新闻：这些创新的应用场景是什么？

张家兴：AI大语言模型的“Scale Law”法则强调，在模型研发与应用中，通过增加资源、扩大规模来提升性能和效果。

我们目前已开源L0系统，希望为行业提供一套加速训练框架。如今无论是何种Agent，包括具身智能机器人本身也被行业视为一种“Agent”，基于这套加速训练框架，我们都希望能提高模型所在数字空间与真实物理世界的互动效率，加快速度并降低成本。

界面新闻：你曾提到过，从2025年开始，Agentic AI领域进入 “Zero 时代”，零样本、模型探索合成数据、“算力 = 数据” 是这个时代的特征？

张家兴：深度学习领域，尤其是OpenAI之后流行的“Scaling Law”法则，使得基于数据和预训练的 “暴力美学” 成为绝对真理，开展任何工作都需先准备数据。

但在当下，在预训练大模型能以极低成本获取的情况下，大模型本身已具备基本能力，更重要的是，它实际上拥有自主开展exploration（探索式学习）的能力。简单说，对于任何任务，它一开始就能做得差不离。这种情况下，我们完全可以让大模型采用“Zero-Shot”模式，即不预先准备数据，而是从零开始让其在与环境的交互中生成数据，只要我们有能评判优劣的机制即可。

而在行业认可的评判标准尚未建立前，不预先准备数据，模型开始基于探索式学习时，犯错的代价便是消耗算力 —— 错误越多、成功率越低，算力浪费就越严重。因此，未来行业竞争将聚焦算力，谁拥有更多算力，就能开展更大规模的exploration，探索更多可能性。

界面新闻：在具身智能领域，如何看待VLA的前景？

张家兴：我认为VLA是当下的唯一选择。未来是否会出现更多选择，我们可以拭目以待。

可以说VLA是这一波具身智能引发行业关注的最重要原因。正是因为行业发现，经过大规模预训练的大模型在驱动机器人方面展现出潜力，才掀起了这具身智能的热潮。

界面新闻：如何看待行业热议的VLA作为端到端模型存在的 “技术黑箱” 和实现 *** 上的不可解释性问题？

张家兴：我不建议在这一问题上花费过多时间争论。世界上不可解释的事物众多，无论是人类大脑还是AI，复杂系统的不可解释性是必然的。

界面新闻：现阶段VLA模型有哪些独特的优势？

张家兴：现阶段VLA是让机器 “懂场景、有温度” 的更优解。以我们的Corgi-VLA模型为例，它有三大设计：混合注意力机制让它优先关注“人”的状态，比如在商场中始终锁定随行的老人而非货架上的商品，动态动作生成模块让动作更柔和，机器狗转身时会放慢速度避免惊吓到人，多模态融合训练让它能理解指令背后的真实需求，这些细节都是技术温度的载体。

从数据训练角度，Corgi-VLA模型通过对不同模态数据的高效融合，减少对单一模态大规模数据的依赖，以相对少量多模态数据训练出更具泛化性与适应性的模型，例如结合少量视觉图像、语言指令和动作反馈数据，实现对复杂场景的精准理解与执行。

为达成这一目标，在模型训练数据上，我们会不断探索用更少、更具代表性的数据，训练出能捕捉生活丰富细节、理解人类复杂情感的模型，让机器人在有限数据学习中，也能实现与人类深度、温暖的交互。

界面新闻：具身智能将模型引入机器人研发，目标是达到何种效果？

张家兴：单纯从传统机器人技术来看，像工厂产线的固定任务（如分拣、搬运），传统工业机器人、机械臂在特定软件算法与硬件配合下，其实表现不错。

而VLA模型在具身领域的研究，更多是将大语言模型的成功延伸至物理世界，bring large models into physical world，这一过程中更重要的是引入大语言模型已经具备的通用性。

通用性具体表现包括：一是能听懂人类语言，可通过自然语言接收指令；二是具有高度泛化性，能随场景变化，准确完成新任务。

换句话说，我们研究VLA、探索具身智能，就是要打造机器人版ChatGPT。

界面新闻：有质疑声称，今年新成立的具身智能机器人企业可能在几年后淘汰一半，您如何看待这一观点？行业的下一个赛点是什么？

张家兴：我认为具身智能真正的机会在于，能否在大模型的下次重大进步来临前，先确保自身存活。

“活着”的核心是“技术硬实力 + 人文软实力”的双重突破。一方面技术上要持续提升VLA模型的效率与泛化能力，硬件上降低成本让更多家庭用得起；另一方面更重要的是坚守科技创业的初心，不盲目追求酷炫功能，而是深耕“解决真需求”的场景。

对话招商局首席科学家张家兴：具身智能要在大模型下一次重大进步来临前“先活下来”

相关阅读

目录[+]