宇树科技创始人兼 CEO、CTO 王兴兴在 2025 世界机器人大会上发表演讲,偷懒引用的是@42号电波 的演讲内容整理[二哈][二哈][二哈]:
-机器人目前没有大规模应用的原因,不是因为硬件不行而是具身智能的发展完全跟不上,目前人形机器人还不能够做到进入完全陌生的环境后,可以顺畅自主地完成类似「把这瓶水带给某位观众,或是整理一下这个房间」的指令任务,王兴兴表示人形机器人的 ChatGPT 时刻如果进展顺利,未来的 1-2 年或者 2-3 年,我们就能实现这一目标,最慢的话 3-5 年也有很大概率可以实现
-王兴兴表示:我个人对 VLA 模型还是保持一个比较怀疑的态度。现在的 VLA 模型是一个相对比较傻瓜式的架构,在和真实世界交互时,它的数据质量、能采集的数据是不太够用的。宇树在尝试 VLA 模型加 RL 训练后,还是不够,所以,模型架构需要再升级和优化
-宇树开始做了一个尝试,利用预训练的机器人动作视频,去控制机器人模仿执行,个人认为就是利用仿真视频来模拟现实场景,这挺考验视频生成的质量的,不过王兴兴表示机器人干活不需要很高精度的视频生成质量。
-目前机器人 RL 的 Scaling Law(预训练),还是做得非常不好,每次训练新动作,都要重新从头开始训练,按照规律,每次训练的速度应该越来越快,学习新技能的效果越来越好
-基座模型/低成本长寿命硬件/大算力是蔚来智能机器人的重心
从我们跟相关人员的交谈,有一些新的分享,我们认为并不是机器人VLA模型不够用了,是现在根本没有数据去训练有质量的端到端VLA模型,从架构来看VLA的主干网络是一个大语言基座模型对不对?
那要训练出这个一个原生基座模型是需要互联网的数据/工业场景里面的应用专一化数据以及机器人运动操作的细节数据,这三个数据都是很难获取的
所以很难做出一个很好的端到端VLA模型~
#微博新知博主##具身智能##世界机器人大赛#
