宇树王兴兴：人形机器人最快在1-2年迎来“ChatGPT时刻”

　　炒股就看，权威，专业，及时，全面，助您挖掘潜力主题机会！

　　来源丨智东西（ID：zhidxcom）

　　作者 | 陈骏达

　　编辑 | 李水青

　　在2025世界大会上，宇树科技创始人兼CEO、CTO王兴兴发表重磅演讲，揭示人形机器人行业正站在技术爆发的临界点。他指出，受益于政策支持与市场需求爆发，2025年上半年全球人形机器人整机及零部件厂商平均实现50%-100%的惊人增长，行业热度持续攀升。

　　王兴兴直言，人形机器人大规模应用的核心瓶颈并非硬件，而是具身智能的发展滞后。当前硬件水平已基本满足技术需求，量产工程化问题虽需优化，但远非更大挑战。真正制约机器人自主完成任务的关键，是模型架构而非行业普遍关注的数据问题。他将行业现状类比为ChatGPT诞生前1-3年，认为最快1-2年、最慢3-5年，人形机器人有望迎来“ChatGPT时刻”——即能在陌生环境中自主完成递水、整理房间等复杂任务。

　　针对技术路径，王兴兴对行业主流的VLA（视觉-语言-动作）模型持怀疑态度，认为其“傻瓜式架构”存在数据质量不足等缺陷。他更看好视频生成模型（世界模型）驱动的控制路径，宇树科技已通过预训练视频生成模型直接控制机器人动作验证了技术可行性，谷歌等企业也在该方向发力。

　　王兴兴回顾宇树从2013年机器狗原型机到2023年首款人形机器人的发展历程，呼吁全球企业与高校共同参与技术共创。此外，本次大会还有许多经典发言值得学习。以下，Enjoy：

　　智东西8月9日报道，今天，宇树科技创始人兼CEO、CTO王兴兴在2025世界机器人大会上，分享了他对全球机器人行业发展现状的最新观点。王兴兴认为，人形机器人行业已经走到“ChatGPT时刻”的前夜，最快1-2年就能迎来这一时刻。

　　王兴兴认为，由于政策支持与需求爆发，2025年上半年，人形机器人整机与零部件厂商平均实现了50%-100%的增长，幅度惊人。然而，行业内还存在几大误区：

　　首先，人形机器人大规模应用的更大问题，并不是硬件，而是具身智能。虽然硬件在量产工程化上仍有提升空间，但具身智能问题更为明显，还无法驱动机器人自主地完成任务，这背后的原因并不是大家普遍关注的数据问题，而是模型架构问题。

　　王兴兴称，未来2到5年，智能机器人技术的重心是端到端的具身智能AI模型。当前行业常见的VLA（视觉-语言-动作）模型，在他看来属于“傻瓜式架构”，他个人对这类模型持怀疑态度。由视频生成模型（或是世界模型）驱动机器人控制，是他眼中有望更快收敛的技术路径。

　　同时，机器人研究还需要在强化学习Scaling Law（扩展定律）上实现突破，从而让每次训练的速度越来越快，学习新技能的效果越来越好。随着机器人日益普及，分布式的算力将成为大势所趋，有望突破机器人本体搭载算力的限制，并满足实际应用过程中对安全性和通信延迟的要求。

　　王兴兴还在演讲中回顾了宇树科技的发展，从2013年研发机器狗X dog原型机开始，并获得8万元的之一桶金，再到2023年应客户需求推出首款人形机器人，他认为，机器人与AI的发展始终是一个全球共创的过程，他也鼓励更多企业和高校参与到这一过程中。

　　以下是王兴兴部分精彩演讲内容的整理（智东西在不改变原意的前提下，进行了一定程度的增删修改）：

　　我分享一下我个人对全球人形机器人行情的看法。今年上半年，更大的特点就是由于机器人行业非常火爆，以及政策的相关支持，整机厂商、零部件厂商，平均实现了50%到100%的增长。增长幅度还是非常吓人的，这对整个行业而言都是十分罕见的，需求端拉动了整个的行业的发展。

　　海外市场方面，特斯拉作为行业代表，计划今年量产数千台人形机器人，并将发布第三代Optimus人形机器人，值得重点关注。此外，全球企业对机器人行业的热情高涨，包括英伟达、苹果、Meta、OpenAI等企业都持续在推动这一领域的发展。

　　我分享几个个人的观点，未必准确。

　　之一点，对于机器人本体来说，很多人可能会有这样一个误区：机器人目前没有大规模应用、功能不够完善的原因，是硬件不够好，或者成本比较高。

　　其实目前的硬件，无论是整机还是灵巧手，从某种意义上来说完全是够用的。当然不够好，还需要优化，更大的问题是量产，工程上的问题肯定是很多的。

　　但是在技术层面上，或者从AI的角度来说，目前的硬件是完全是够用的。目前更大的挑战还是具身智能，或者说AI技术的发展，完全不够用。这也是限制当前机器人，尤其是人形机器人大规模的应用的更大问题。

　　目前，机器人行业所处的位置，就像是ChatGPT诞生前的1-3年左右，目前业界已经发现了类似的方向以及技术路线，但是没人把它做出来。

　　ChatGPT出来的前几年，做语音AI的已经做了十几年，近二十年了，但是大家一直觉得他很傻瓜，很弱智，根本完全没法用。ChatGPT出来后，它实现了比一般人还要强的能力。机器人还没有到达这一临界点。

　　对于机器人的AI技术，我觉得临界点可能是这样的：当一个人形机器人能够进入一个完全陌生的环境（比如从未见过的会场），我跟他说“把这瓶水带给某位观众”，或是“整理一下这个房间”，而它能够顺畅自主地完成任务，这就是人形机器人的ChatGPT时刻。

　　如果进展快的话，可能未来的1-2年或者2-3年，我们就能实现这一目标，最慢的话3-5年也有很大概率能实现。

　　目前，具身智能不够用的问题，究竟是模型还是数据导致的？我反而感觉目前全球范围内，大家对机器人数据这个问题的关注度有点太高了。现在更大的问题是反而是模型的问题，并不是数据问题。

　　对于具身智能和机器人来说，模型架构都还不够好，也不够统一。大家对模型问题的关注度高，反而对数据的问题关注很多。因为在大语言模型领域，大家觉得我有足够多的数据，尤其有足够多的好的数据的时候，我就能把模型训练的越来好。

　　但是在具身智能，在机器人领域，大家可以发现，很多情况下有了数据，会发现这个数据用不起来。

　　相对比较火的就是VLA模型。VLA是一个相对比较傻瓜式的架构，我个人对VLA模型还是保持一个比较怀疑的态度。VLA模型在与真实世界交互时，它的数据质量、能采集的数据是不太够用的。

　　有个简单的想法，就是在VLA模型上面加一个RL的训练，这是一个非常自然的想法。但是我个人感觉，包括我们公司目前尝试下来VLA模型加RL训练，我觉得还是不够的，模型架构还是得再升级和优化。

　　这里也简单分享一下我们过去做的一些事情。大家也可以关注到，谷歌发布了他们全新一代的视频生成模型，或者某种意义上是一个视频驱动的一个世界模型。还有，去年的时候，当OpenAI发布了视频生成模型以后，大家会有一个很自然的想法：我可以控制一个视频生成模型，跟他说“帮我生成一个机器人，去整理一下房间”。

　　如果模型生成的视频中，机器人可以完成任务，那我是不是能让这个视频生成模型直接去驱动一个机器人完成任务。这个想法非常简单直接，我们去年的时候就去做了这个事情。

　　大家可以看到，右上角的视频其实是生成出来的，不是用摄像头采集的。我们用一个预训练的视频生成模型，重新训练了一下，让他先去生成一个机器人动作的视频，然后再控制一个机器人去做，这个技术是能实现的。包括谷歌的视频生成世界模型，他们也想实现这个效果。

　　我觉得这个路线的方向可能会比VLA模型发展得要快，收敛概率还更大。但我不敢打包票，可能还是有很多问题。其中有个很大的问题就是，视频生成模型太关注视频生成的质量了，导致对GPU的消耗有点大。

　　对机器人干活来说，某种意义上你并不需要很高精度的视频生成质量，你只要驱动机器人去干活就行了。大家可以关注谷歌的视频生成模型，还是非常有意思的。整个模型的架构还是非常简单粗暴的，就是把机器人的一些动作序列控制，直接对齐到模型的架构上。

　　另外一点，大家也知道，目前机器人跳跳舞、打格斗效果其实不错了，但实际上面临一个很大的问题，如果要进一步机器人能力提升，也就是机器人RL的Scaling Law，还是做得非常不好。

　　举个最简单的例子，我训练一个机器人做新的动作、跳新的舞蹈，都要重新训练，还是从头开始训练，这是非常不好的一个事情。我们是希望机器人每次做一个新的训练的时候，可以在过去训练基础上进行。

　　理论上我做RL训练的时候，每次训练的速度应该越来越快，学习新技能的效果越来越好。但是全行业内，目前整个机器人在RL的Scaling Law，没有人做出来，做好。我觉得这是非常值得做的一个方向。

　　因为RL Scaling Law在语言模型上已经是充分验证过的事情。但在机器人的运动控制上面，大家才刚刚开始。

　　我个人感觉，在未来2到5年，智能机器人技术的重心是端到端的具身智能AI模型。我觉得模型本身是最重要的。

　　然后就是更低成本的，更高寿命的硬件，这个是毋庸置疑的。大家也知道，哪怕对于汽车行业来说，已经一百多年了，哪怕到今天，一家企业要做很好的一辆汽车出来，工程量还是非常大的。

　　对机器人行业来说，未来如果每年要生产制造几百万、几千万甚至几亿的人体机器人，它的工程量挑战还是非常惊人的。

　　同时，低成本的大规模的算力也很重要。在人形机器人上，或者在移动机器人本体上，其实没办法直接部署大规模的算力。它的尺寸只有这么大，它的电池只有这么大，它部署算力的功耗是有限制的。

　　我个人感觉在人形机器人上，最多只能部署峰值功耗为100瓦的算力，平时工作的时候算力只有小几十瓦，简单说就只有大概几个手机的算力水平。

　　但是，未来机器人还是需要大规模算力的，而且我觉得可能是分布式的算力。机器人干活的时候，我们希望其通信延迟比较低的，如果在北京干活的机器，数据中心在上海或者在内蒙，延迟实在是太大了。

　　我个人感觉，未来在工业领域大规模运用人形机器人时，工厂里面可以有个分布式的服务器，所有的机器人直接连接工厂里的局部服务器就好了。服务器的安全性、通信延迟是可以接受的。

　　或者换一个话题，如果一个小区每家每户有一个机器人的时候，在这个小区可能是有分布式的集群算力中心的，可以保证延迟与安全性。并且，如果有新客户想买一个人形机器人的时候，他不需要给这部分算力的建设花钱，成本也会更低很多。

　　我觉得分布式算力会是机器人行业未来非常重要的一个领域，可能比目前算力的分布还要更广一些。

　　另外一点，大家也知道，在AI领域、机器人领域一直是一个全球共创的过程。中国的企业、美国的企业，包括英伟达等，已经做出了很多贡献。

　　在AI领域，没有一家大公司能保证，只要有足够的人、有足够的资源，我就能永远领先。OpenAI和DeepSeek已经证明了，AI的创新永远伴随着一些随机性，伴随着更多的聪明年轻人的。所以很多情况下都是很多公司、高校做出的贡献，还是要全球共创出来的。谢谢大家。

新浪声明：此消息系转载自新浪合作媒体，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

最新进展邦达亚洲:鹰派降息影响发酵英镑持续收涨

最近更新邦达亚洲:鹰派降息影响发酵英镑持续收涨

百度科普邦达亚洲:鹰派降息影响发酵英镑持续收涨

讨论：邦达亚洲:鹰派降息影响发酵英镑持续收涨

学习，邦达亚洲:鹰派降息影响发酵英镑持续收涨

更新学习，邦达亚洲:鹰派降息影响发酵英镑持续收涨

更新，邦达亚洲:鹰派降息影响发酵英镑持续收涨

评论，邦达亚洲:鹰派降息影响发酵英镑持续收涨

头条，邦达亚洲:鹰派降息影响发酵英镑持续收涨

汇总，邦达亚洲:鹰派降息影响发酵英镑持续收涨

宇树王兴兴：人形机器人最快在1-2年迎来“ChatGPT时刻”

相关阅读

目录[+]