学习下李想对 VLA 模型和辅助驾驶行业的看法:L4 级别的自动驾驶将会在 2027 年实现。
「2025 年整个辅助驾驶行业遇到了至暗时刻,相关技术和体验整个上半年进展缓慢,同时还面临了来自监管的挑战。
但我认为这是黎明到来前的黑暗。VLA 是很清晰的通往 L3、L4,甚至是 L5 级自动驾驶的路径,因为它和人的工作方式一样。
我们预测,未来会比人类的驾驶强 10 倍,甚至 100 倍。
VLA 是真正的,AGI 第三阶段的智能体,它的能力提升来自于两个方面。
首先是通过人类的数据和基座模型,获得人类的经验,达到和人类相同的水平。
类似于师傅带徒弟,大量的应用类似 SFT(监督微调)和 RLHF(基于人类反馈的强化学习)的方式来进行后训练。
更重要的是可以通过世界模型生成的环境进行强化训练,也就是 RLAF(基于人工智能反馈的强化学习),只不过这里的 RLAF 不是用于训练基座模型的,而是用于直接训练智能体的。
举个例子来说,我们近期在国外国内经常看到 L4 的运营车辆掉到了施工场景的坑里,但是在人类世界中,这样的数据非常有限,且无法用于训练。
但是在世界模型中,我们可以把这些坑变成数据资产,生成无数个车辆掉坑的数据,从而通过强化训练,让智能体可以轻松地解决这类的问题。
也就是说,世界模型拥有比真实世界更难、更全面、更高质量以及更有挑战的数据和反馈方式,从而解决了人类世界数据过拟合、数据分配不均以及无法剔除脏数据对智能体的影响。
我们相信随着训练、迭代和成长,未来两年左右 VLA 可以达到人类驾驶安全的 10 倍以上。
这背后的挑战是,智能体需要更强的大脑和更强的心脏。
大脑就是模型的规模,端到端是 3 亿参数的模型规模。虽然我们交付的 VLA 已经是 40 亿的模型规模了,但是跟人类大脑相比还是有很大的不足。
模型规模的扩大会带来能力的显著提升,而对应模型规模的扩大也需要在端侧部署更强的算力,就相当于心脏通过给大脑持续的供血从而运行更大的模型。
那另外一方面,在设计模型和 RLAF 层面,相比之前我们可能需要 10 倍起的推理算力,用于解决 RLAF 训练所需要的环境和数据。
我们预测,随着强化训练、模型规模以及算力的提升,自动驾驶的进步速度和成长速度会远远高于以前的任何一种方式。
我们相信未来 3 - 5 年里,数字世界最大的智能体应用是编程,而物理世界最大的智能体应用就是自动驾驶,而且我相信 L4 级别的自动驾驶将会在 2027 年实现。」
#理想汽车发布2025年二季度财报##理想汽车拥有超千亿现金储备#
发布于 上海
