MatX融资5亿美元做LLM专用芯片

MatX 公司融资 5 亿美元，专门做只给大模型（LLM）用的芯片，核心创新是 ** 可拆分的脉动阵列（systolic array）** 架构。
下面是我整理的他们技术要点：
一、团队背景：都是谷歌前大佬
Reiner Pope：谷歌 PaLM 大模型的能效负责人，参与过 TPU v5e 设计。
Mike Gunter：谷歌某款机器学习芯片的首席架构师，在 6 个行业里设计过 11 款芯片。
两人 2022 年从谷歌离职，目标很明确：
做一款只为大语言模型优化的专用芯片。
他们在谷歌发现：
TPU 虽然跑大模型很强，但为了兼容广告等其他业务，做了很多妥协，不是纯为 LLM 而生。
二、核心架构：脉动阵列，但解决了老毛病
1. 传统脉动阵列是什么（简单说）
和谷歌 TPU 一样，核心计算单元是脉动阵列：
权重只加载一次，就放在原地不动
激活值流过去算
每个计算单元直接把结果传给邻居
没有复杂的寄存器、指令解码、线程调度
只做最核心的：乘加计算
所以同样面积下，算力比 GPU 更高。
2. 传统脉动阵列的痛点
大阵列对大矩阵运算（预填充、训练）效率很高
但在注意力机制、解码这种小而不规则的计算里，利用率很低、很浪费
Pope 原话大意：
混合专家层（MoE）很适合大脉动阵列
但注意力机制不适合
3. MatX 的解法：可拆分脉动阵列
算大矩阵时：整合成一个大阵列，能效拉满
算注意力、解码时：拆成多个小阵列，利用率拉满
一句话：
既有大阵列的省电，又有小阵列的高利用率。
三、内存设计：SRAM + HBM 混合方案
MatX 用了混合内存架构：
模型权重放在片上 SRAM：延迟极低
KV 缓存放在 HBM：支持超长上下文
它瞄准了当前芯片的一个空白：
纯 HBM 芯片（GPU、TPU）：吞吐高，但每 token 延迟～20ms
纯 SRAM 芯片（Groq、Cerebras）：延迟低到 ~1ms，但容量小、成本不划算
MatX 想要：
SRAM 级别的低延迟 + HBM 级别的长上下文支持。
四、精度设计：从头做，主打 4 位精度
数值精度从头自研，但目标是和英伟达持平
和内部 ML 团队协同设计，主打 4 位精度
效果很直观：
FP16 下要 14GB 的模型
4 位下只要 3.5GB
大模型也能塞进片上 SRAM 里跑。
五、他们还发了不少关键技术
MatX 已经公开的研究成果：
推测解码 SPIRe：比普通推测解码吞吐提升 100%
稀疏多值注意力 SMVA：把 K、V 头数解耦，内存带宽节省最高 8 倍
一篇分析指出：
模型训练时硬件效率约 70%
推理时只有 10% 左右
这也是他们做专用芯片的重要理由。
六、芯片定位与时间线
覆盖场景：预训练、强化学习、推理预填充、解码
流片目标：1 年内
上市时间：2027 年
他们的核心判断（和 Etched 这类公司类似）：
Transformer 架构会长期主导大模型，值得专门做芯片。
靠可拆分脉动阵列 + 混合内存 + 4 位精度协同设计，
在吞吐 — 延迟曲线上，跑出比通用 GPU 更好的效果。

发布于中国香港