传统 VLA(视觉→语言→动作):必须先把视觉转成文字描述(L),再生成动作,多了一层 “翻译官”,有延迟、信息损耗
小鹏 VLA 2.0:砍掉了 “显式语言转译” 环节,变成 “视觉 + 语言(隐式)→动作”,语言不再是中间翻译层,而是变为并行输入、内部隐式推理。
效果:决策延迟从 200ms 降到 80ms,响应快 3 倍,确实更接近 “直接从像素到动作” 的一段式端到端。
发布于 浙江
传统 VLA(视觉→语言→动作):必须先把视觉转成文字描述(L),再生成动作,多了一层 “翻译官”,有延迟、信息损耗
小鹏 VLA 2.0:砍掉了 “显式语言转译” 环节,变成 “视觉 + 语言(隐式)→动作”,语言不再是中间翻译层,而是变为并行输入、内部隐式推理。
效果:决策延迟从 200ms 降到 80ms,响应快 3 倍,确实更接近 “直接从像素到动作” 的一段式端到端。