#2026理想Livis Day# 谢炎宣布:马赫 M100 架构论文被 ISCA 2026 收录。ISCA 是计算机体系结构顶会,论文能被收录还是很牛的。目前ISCA官网还没有更新,我能找到有关马赫M100的论文,是4月20日发布在arXiv上的一篇内容。并标注了:Accepted to appear at ISCA 2026 Industry Track。
这篇论文的核心问题是:理想为什么要自己做一颗车端 AI 推理芯片。
它给出的解答很直接:智能驾驶、车载大模型、人车交互这些任务越来越重,车上又不能像云端机房那样堆功耗、堆散热、堆成本。
通用 GPU 好用、生态成熟,但成本和效率未必适合车企自己的智驾系统;特别专用的芯片效率高,但算法变化太快,容易几年后跟不上模型形态。
M100 想站在中间:保留一定通用性,同时把车端 AI 常见任务跑得更高效。
论文把这个方案叫 Orchestrated Dataflow Architecture,可以理解成“由编译器编排的数据流架构”。
普通 CPU/GPU 更偏“指令驱动”:发指令、取数据、算、写回。
M100 的思路更偏“数据流驱动”:先把模型计算拆成张量任务,再由编译器和运行时提前规划数据怎么走、在哪个计算块上算、什么时候同步。
硬件里少依赖多级缓存,更多依赖本地 SRAM、DMA、同步计数器和软件调度。
M100 的设计重点不只是计算单元有多少,而是尽量减少数据搬运和等待。AI 推理里很多时间其实耗在数据流动上,尤其是多路摄像头、BEV、Transformer、LLM 这类模型。
论文反复讲“orchestrate”,意思就是计算和数据搬运都要被安排好,别让计算单元空等。
▷硬件结构上,M100 是单 SoC,核心是NPU,其他数据包括:
·8 路 LPDDR5X,64GB 内存,273GB/s 峰值带宽。
·支持最多 11 路摄像头输入。
·CPU 集群是 24 个 ARM Cortex-A78AE 核。
·NPU 内部有 1 个 Central Control Block 和 14 个 TPB clusters。
·每个 cluster 有 4 个 TPB,所以总共 56 个 TPB。
TPB 里有张量计算单元、可配置向量单元、DMA、本地高带宽共享内存、同步单元等。
片上互联包括 2D Mesh Bus 和 Data Ring Bus,一个适合点对点高带宽通信,一个适合广播数据。
TPB 可以理解成 M100 的基本工作车间。每个车间里有本地 2MB 高带宽共享内存,计算单元之间通过这块内存交换数据,再用同步计数器协调谁先做、谁后做。
▷M100 的编译工具链包括:
·space-time scheduler:决定模型子图怎么映射到硬件上。
·graph compiler:做图优化、内存分配、算子融合、布局转换。
·backend compiler:生成能调用 M100 硬件能力的底层指令。
模型要跑得快,必须让编译器能把模型拆得好、排得好、搬得少。对理想来说,自研芯片真正的门槛也在这里:硬件做出来只是第一步,后续每一代智驾模型、VLA 模型、大语言模型,都要靠工具链适配。
▷性能部分,论文主要对比 NVIDIA Thor-U。
论文说在写作时,理想还没有正式披露 M100 的完整性能规格,只列了 DDR 带宽、die size 和制程等基础指标。
▷UniAD 自动驾驶任务上,M100 的结果很强。论文说只用 8 个 cluster 跑 AD,保留其他 6 个 cluster 给座舱等任务,仍然能做到 30 FPS;Thor-U 是 7.9 FPS。
同功耗预算下,整体帧率约 3.8 倍。不同模块的加速比从 1.2 倍到 6.3 倍不等,比如 RegNet 4.4 倍、BEVFormer 4.1 倍、TrackFormer 6.3 倍。
LLaMA2-7B 上,decode 阶段 M100 是 21.34ms,Thor-U 是 20ms,M100略慢。prefill 阶段 M100 是 79ms,Thor-U 是 154ms,M100 约 1.95 倍。
decode 阶段逐 token 生成,更受内存带宽限制;prefill 阶段并行度高,M100 的数据流架构更容易发挥。
MindVLA 的 LLM 组件上,M100 也明显领先。decode 0.1ms 对 Thor-U 0.3ms,prefill 0.84ms 对 1.74ms。
这个部分最贴近理想自己的未来模型路线,但论文只展示 LLM 组件,没有展示完整 MindVLA 端到端表现。
我觉得这篇论文最有价值的地方,是它解释了理想为什么会把“芯片”放进具身智能叙事里。车端 AI 不只是需要一个大模型,也需要一个能稳定、低延迟、高利用率运行这些模型的底座。
M100 的路线是:用数据流架构提高 AI 推理效率,用编译器掌控数据搬运,用自研 SoC 把智驾、座舱、人车交互放进同一套计算平台。
