电动知士大雨 26-04-29 20:39
微博认证:汽车博主

小鹏前端时间发布了 X-World 的"自动驾驶世界模型"。你可以把它理解成一个给AI司机专用的"数字平行世界"——它能根据车辆现在的摄像头画面和驾驶动作,比如方向盘转角、油门,预测出未来几秒车辆会看到什么画面。

但问题是:生成这种高保真视频非常耗算力,慢、贵、延迟高,没法大规模实时跑。

他们今天又公布了X-Cache"加速器",它让这个世界模型生成画面的速度提升了约 2.7 倍,而且不需要重新训练模型,是一段即插即用的控制逻辑。

AI生成视频,底层大多是"扩散模型"。它的工作方式不是直接画出画面,而是从一张纯噪声图开始,一步步去噪、修正,最终修出清晰的画面。每一步去噪都叫一个"去噪步"。

X-Cache 没有盯着"同一段画面内的不同去噪步",而是开辟了一个新维度:相邻两段画面(时间维度)在同一去噪步上,是否足够相似?

自动驾驶摄像头拍到的画面是连续、顺滑的。车辆往前开,上一帧里的道路、路边树木、远处建筑,和下一帧几乎一模一样,只有少量变化。

小鹏的方法是把要生成的视频按时间切成一段段连续的"画面段",在 DiT 网络内部,比较相邻两段画面在同一层网络、同一个去噪步上算出来的"中间特征"。

如果相似度很高,说明"这层的计算结果和上一段差不多",就直接复用上一段缓存好的中间结果,跳过这一整层的计算。

这就是"跨段块级缓存"(Cross-Chunk Block Caching)——跨的是时间片段,缓存的是网络层(Block)的计算结果,靠着这种复用,大约 71% 的网络层可以被跳过。

X-Cache 的本质是:让计算只用于探索画面突变处,而把重复的连续帧静态背景,通过缓存复用掉。

这套逻辑不只用于小鹏的自动驾驶,还能直接拓展到同类具身智能与世界模型,比如机器人仿真、在线强化学习(Online RL)、低算力芯片部署等。

发布于 云南