李想解析马赫芯片技术

李想讲了自研马赫100芯片的意义：从2D ViT转向3D ViT，数据流架构传输；讲了为什么要上全线控底盘。

关于2D → 3D ViT做个简单的科普和补充：

在早期Transformer 视觉应用（ViT）中，处理数据的方式是切片式的。把摄像头拍到的一张图，比如 224X224像素，切成一个个 16x16的小方块。这就点像看幻灯片，每一帧的信息有限，且选少时间和空间关联。

3D ViT就是不再输入一张图，而是一个视频流片段（Clips），以前的 Token 是一个二维图片补丁，现在的 Token 是一个时空管——它既包含了这个物体在空间上的位置，也包含了它在时间轴上的变化。

其实大家都在处理视频流，为什么李想现在特意强调“转向 3D ViT”？

区别在于“很多”运行在上一代芯片的端到端模型，是通过2D ViT提取特征后，通过连续几帧的堆叠，扔进一个时间融合模块里，是一个混合架构。它的本质是：先看图，再脑补动画

转向3D ViT可以理解为原生支持处理连续视频流，是天生就在看电影。

有人会说，这不就是2D转3D么，其实这是两个概念。大家讲的2D转3D通常说的是视角转换，比如BEV 鸟瞰图。而2D ViT转向3D ViT指的是特征提取维度，这里的3D指的不是空间坐标x，y，z而是张量：是高、宽和时间。

上一代芯片不能原生支持，李想在视频中提到了原因，简单理解就是：内存带宽和数据搬运效率跟不上。

李想视频中提到数据流架构，我的个人理解是：可以把 3D ViT 的层与层之间直接在硅片上“硬连接”起来。中间不需要频繁读写外部显存。上一层的输出直接在芯片内部流进下一层，这种极致的延迟优化，是通用 GPU 很难做到的。或许，这也是为什么御三家都转向自研芯片的原因。

既然大脑都这么快了，身体也得跟得上，这就是为什么L9 Livis要搞全线控底盘的底层逻辑。 http://t.cn/AX59rqW2

发布于北京