李想讲了自研马赫100芯片的意义:从2D ViT转向3D ViT,数据流架构传输;讲了为什么要上全线控底盘。
关于2D → 3D ViT做个简单的科普和补充:
在早期Transformer 视觉应用(ViT)中,处理数据的方式是切片式的。把摄像头拍到的一张图,比如 224X224像素,切成一个个 16x16的小方块。 这就点像看幻灯片,每一帧的信息有限,且选少时间和空间关联。
3D ViT就是不再输入一张图,而是一个视频流片段(Clips),以前的 Token 是一个二维图片补丁,现在的 Token 是一个时空管——它既包含了这个物体在空间上的位置,也包含了它在时间轴上的变化。
其实大家都在处理视频流,为什么李想现在特意强调“转向 3D ViT”?
区别在于“很多”运行在上一代芯片的端到端模型,是通过2D ViT提取特征后,通过连续几帧的堆叠,扔进一个时间融合模块里,是一个混合架构。它的本质是:先看图,再脑补动画
转向3D ViT可以理解为原生支持处理连续视频流,是天生就在看电影。
有人会说,这不就是2D转3D么,其实这是两个概念。大家讲的2D转3D通常说的是视角转换,比如BEV 鸟瞰图。而2D ViT转向3D ViT指的是特征提取维度,这里的3D指的不是空间坐标x,y,z而是张量:是高、宽和时间。
上一代芯片不能原生支持,李想在视频中提到了原因,简单理解就是:内存带宽和数据搬运效率跟不上。
李想视频中提到数据流架构,我的个人理解是:可以把 3D ViT 的层与层之间直接在硅片上“硬连接”起来。中间不需要频繁读写外部显存。上一层的输出直接在芯片内部流进下一层,这种极致的延迟优化,是通用 GPU 很难做到的。或许,这也是为什么御三家都转向自研芯片的原因。
既然大脑都这么快了,身体也得跟得上,这就是为什么L9 Livis要搞全线控底盘的底层逻辑。 http://t.cn/AX59rqW2
发布于 北京
