M100论文被ISCA收录

#2026理想Livis Day# 谢炎宣布：马赫 M100 架构论文被 ISCA 2026 收录。ISCA 是计算机体系结构顶会，论文能被收录还是很牛的。目前ISCA官网还没有更新，我能找到有关马赫M100的论文，是4月20日发布在arXiv上的一篇内容。并标注了：Accepted to appear at ISCA 2026 Industry Track。

这篇论文的核心问题是：理想为什么要自己做一颗车端 AI 推理芯片。

它给出的解答很直接：智能驾驶、车载大模型、人车交互这些任务越来越重，车上又不能像云端机房那样堆功耗、堆散热、堆成本。

通用 GPU 好用、生态成熟，但成本和效率未必适合车企自己的智驾系统；特别专用的芯片效率高，但算法变化太快，容易几年后跟不上模型形态。

M100 想站在中间：保留一定通用性，同时把车端 AI 常见任务跑得更高效。

论文把这个方案叫 Orchestrated Dataflow Architecture，可以理解成“由编译器编排的数据流架构”。

普通 CPU/GPU 更偏“指令驱动”：发指令、取数据、算、写回。

M100 的思路更偏“数据流驱动”：先把模型计算拆成张量任务，再由编译器和运行时提前规划数据怎么走、在哪个计算块上算、什么时候同步。

硬件里少依赖多级缓存，更多依赖本地 SRAM、DMA、同步计数器和软件调度。

M100 的设计重点不只是计算单元有多少，而是尽量减少数据搬运和等待。AI 推理里很多时间其实耗在数据流动上，尤其是多路摄像头、BEV、Transformer、LLM 这类模型。

论文反复讲“orchestrate”，意思就是计算和数据搬运都要被安排好，别让计算单元空等。

▷硬件结构上，M100 是单 SoC，核心是NPU，其他数据包括：

·8 路 LPDDR5X，64GB 内存，273GB/s 峰值带宽。
·支持最多 11 路摄像头输入。
·CPU 集群是 24 个 ARM Cortex-A78AE 核。
·NPU 内部有 1 个 Central Control Block 和 14 个 TPB clusters。
·每个 cluster 有 4 个 TPB，所以总共 56 个 TPB。

TPB 里有张量计算单元、可配置向量单元、DMA、本地高带宽共享内存、同步单元等。

片上互联包括 2D Mesh Bus 和 Data Ring Bus，一个适合点对点高带宽通信，一个适合广播数据。

TPB 可以理解成 M100 的基本工作车间。每个车间里有本地 2MB 高带宽共享内存，计算单元之间通过这块内存交换数据，再用同步计数器协调谁先做、谁后做。

▷M100 的编译工具链包括：

·space-time scheduler：决定模型子图怎么映射到硬件上。
·graph compiler：做图优化、内存分配、算子融合、布局转换。
·backend compiler：生成能调用 M100 硬件能力的底层指令。

模型要跑得快，必须让编译器能把模型拆得好、排得好、搬得少。对理想来说，自研芯片真正的门槛也在这里：硬件做出来只是第一步，后续每一代智驾模型、VLA 模型、大语言模型，都要靠工具链适配。

▷性能部分，论文主要对比 NVIDIA Thor-U。

论文说在写作时，理想还没有正式披露 M100 的完整性能规格，只列了 DDR 带宽、die size 和制程等基础指标。

▷UniAD 自动驾驶任务上，M100 的结果很强。论文说只用 8 个 cluster 跑 AD，保留其他 6 个 cluster 给座舱等任务，仍然能做到 30 FPS；Thor-U 是 7.9 FPS。

同功耗预算下，整体帧率约 3.8 倍。不同模块的加速比从 1.2 倍到 6.3 倍不等，比如 RegNet 4.4 倍、BEVFormer 4.1 倍、TrackFormer 6.3 倍。

LLaMA2-7B 上，decode 阶段 M100 是 21.34ms，Thor-U 是 20ms，M100略慢。prefill 阶段 M100 是 79ms，Thor-U 是 154ms，M100 约 1.95 倍。

decode 阶段逐 token 生成，更受内存带宽限制；prefill 阶段并行度高，M100 的数据流架构更容易发挥。

MindVLA 的 LLM 组件上，M100 也明显领先。decode 0.1ms 对 Thor-U 0.3ms，prefill 0.84ms 对 1.74ms。

这个部分最贴近理想自己的未来模型路线，但论文只展示 LLM 组件，没有展示完整 MindVLA 端到端表现。

我觉得这篇论文最有价值的地方，是它解释了理想为什么会把“芯片”放进具身智能叙事里。车端 AI 不只是需要一个大模型，也需要一个能稳定、低延迟、高利用率运行这些模型的底座。

M100 的路线是：用数据流架构提高 AI 推理效率，用编译器掌控数据搬运，用自研 SoC 把智驾、座舱、人车交互放进同一套计算平台。

发布于浙江