MatX 公司融资 5 亿美元,专门做只给大模型(LLM)用的芯片,核心创新是 ** 可拆分的脉动阵列(systolic array)** 架构。
下面是我整理的他们技术要点:
一、团队背景:都是谷歌前大佬
Reiner Pope:谷歌 PaLM 大模型的能效负责人,参与过 TPU v5e 设计。
Mike Gunter:谷歌某款机器学习芯片的首席架构师,在 6 个行业里设计过 11 款芯片。
两人 2022 年从谷歌离职,目标很明确:
做一款只为大语言模型优化的专用芯片。
他们在谷歌发现:
TPU 虽然跑大模型很强,但为了兼容广告等其他业务,做了很多妥协,不是纯为 LLM 而生。
二、核心架构:脉动阵列,但解决了老毛病
1. 传统脉动阵列是什么(简单说)
和谷歌 TPU 一样,核心计算单元是脉动阵列:
权重只加载一次,就放在原地不动
激活值流过去算
每个计算单元直接把结果传给邻居
没有复杂的寄存器、指令解码、线程调度
只做最核心的:乘加计算
所以同样面积下,算力比 GPU 更高。
2. 传统脉动阵列的痛点
大阵列对大矩阵运算(预填充、训练)效率很高
但在注意力机制、解码这种小而不规则的计算里,利用率很低、很浪费
Pope 原话大意:
混合专家层(MoE)很适合大脉动阵列
但注意力机制不适合
3. MatX 的解法:可拆分脉动阵列
算大矩阵时:整合成一个大阵列,能效拉满
算注意力、解码时:拆成多个小阵列,利用率拉满
一句话:
既有大阵列的省电,又有小阵列的高利用率。
三、内存设计:SRAM + HBM 混合方案
MatX 用了混合内存架构:
模型权重放在片上 SRAM:延迟极低
KV 缓存放在 HBM:支持超长上下文
它瞄准了当前芯片的一个空白:
纯 HBM 芯片(GPU、TPU):吞吐高,但每 token 延迟~20ms
纯 SRAM 芯片(Groq、Cerebras):延迟低到 ~1ms,但容量小、成本不划算
MatX 想要:
SRAM 级别的低延迟 + HBM 级别的长上下文支持。
四、精度设计:从头做,主打 4 位精度
数值精度从头自研,但目标是和英伟达持平
和内部 ML 团队协同设计,主打 4 位精度
效果很直观:
FP16 下要 14GB 的模型
4 位下只要 3.5GB
大模型也能塞进片上 SRAM 里跑。
五、他们还发了不少关键技术
MatX 已经公开的研究成果:
推测解码 SPIRe:比普通推测解码吞吐提升 100%
稀疏多值注意力 SMVA:把 K、V 头数解耦,内存带宽节省最高 8 倍
一篇分析指出:
模型训练时硬件效率约 70%
推理时只有 10% 左右
这也是他们做专用芯片的重要理由。
六、芯片定位与时间线
覆盖场景:预训练、强化学习、推理预填充、解码
流片目标:1 年内
上市时间:2027 年
他们的核心判断(和 Etched 这类公司类似):
Transformer 架构会长期主导大模型,值得专门做芯片。
靠可拆分脉动阵列 + 混合内存 + 4 位精度协同设计,
在吞吐 — 延迟曲线上,跑出比通用 GPU 更好的效果。
