阿里的WorldVLA集成了两个不同但互补的功能组件,Action动作模型和World世界模型,这是将世界模型和VLA做有机融合的一个案例,同时小鹏XP在近期的二代VLA也应用了类似的方法论(文字token+World/Vision)
-Action动作模型,负责生成以文本为条件的动作还有视觉数据
-World世界模型,延长预测链路,预测随后的环境状态
科技不是构筑价值观对立面,能用易用好用为标准,总是在科学的讨论中相互融合,今年春节魏牌还是VLM的时候确实体验到了一些还需要进步的空间,期待长城CP-Master#我与汽车的日常##微博兴趣创作计划[超话]##神奇的汽车构造#
发布于 河北
