小鹏发布X-Cache加速器

小鹏前端时间发布了 X-World 的"自动驾驶世界模型"。你可以把它理解成一个给AI司机专用的"数字平行世界"——它能根据车辆现在的摄像头画面和驾驶动作，比如方向盘转角、油门，预测出未来几秒车辆会看到什么画面。

但问题是：生成这种高保真视频非常耗算力，慢、贵、延迟高，没法大规模实时跑。

他们今天又公布了X-Cache"加速器"，它让这个世界模型生成画面的速度提升了约 2.7 倍，而且不需要重新训练模型，是一段即插即用的控制逻辑。

AI生成视频，底层大多是"扩散模型"。它的工作方式不是直接画出画面，而是从一张纯噪声图开始，一步步去噪、修正，最终修出清晰的画面。每一步去噪都叫一个"去噪步"。

X-Cache 没有盯着"同一段画面内的不同去噪步"，而是开辟了一个新维度：相邻两段画面（时间维度）在同一去噪步上，是否足够相似？

自动驾驶摄像头拍到的画面是连续、顺滑的。车辆往前开，上一帧里的道路、路边树木、远处建筑，和下一帧几乎一模一样，只有少量变化。

小鹏的方法是把要生成的视频按时间切成一段段连续的"画面段"，在 DiT 网络内部，比较相邻两段画面在同一层网络、同一个去噪步上算出来的"中间特征"。

如果相似度很高，说明"这层的计算结果和上一段差不多"，就直接复用上一段缓存好的中间结果，跳过这一整层的计算。

这就是"跨段块级缓存"（Cross-Chunk Block Caching）——跨的是时间片段，缓存的是网络层（Block）的计算结果，靠着这种复用，大约 71% 的网络层可以被跳过。

X-Cache 的本质是：让计算只用于探索画面突变处，而把重复的连续帧静态背景，通过缓存复用掉。

这套逻辑不只用于小鹏的自动驾驶，还能直接拓展到同类具身智能与世界模型，比如机器人仿真、在线强化学习（Online RL）、低算力芯片部署等。

发布于云南