传统 VLA（视觉→语言→动作）：必须先把视觉转成文字描述（L），再生成动作，多了一层 “翻译官”，有延迟、信息损耗小鹏 VLA 2.0：砍掉了 “显式语言转译” 环节，变成 “视觉 + 语言（隐式）→动作”，语言不再是中间翻译层，而是变为并行输入、内部隐式推理。效果：决策延迟从 200ms 降到 80ms，

传统 VLA（视觉→语言→动作）：必须先把视觉转成文字描述（L），再生成动作，多了一层 “翻译官”，有延迟、信息损耗
小鹏 VLA 2.0：砍掉了 “显式语言转译” 环节，变成 “视觉 + 语言（隐式）→动作”，语言不再是中间翻译层，而是变为并行输入、内部隐式推理。
效果：决策延迟从 200ms 降到 80ms，响应快 3 倍，确实更接近 “直接从像素到动作” 的一段式端到端。

发布于浙江