刷到一个公司Taalas,一家Al芯片公司,团队只有二十多人,却已经融资超过2亿美元。
首款产品HC1走了一条极端路线:用Mask ROM工艺把Llama3.18B的权重直接固化在硅片金属层里,计算单元和模型参数在同一块硅上,几乎放弃可编程性,换来吞吐,延迟和能效的极限优化。
现在他们固化的是Llama3.18B,体验了下,回答问题不靠谱,很不稳。
但问题在于它快得离谱,体验上非常反直觉,能把Groq碾成渣渣,单芯片17,000tokens/s的输出能力,眨个眼的功夫干出来几万字,这个比数据库查询能力都牛逼。
如果未来的大模型真的只剩几家头部在迭代,模型结构逐渐稳定,权重更新频率放缓,那么给某一个确定模型单独做一颗芯片,可能一点都不疯狂。
我们现在默认模型会一直剧烈变化,所以算力必须通用。
但如果模型开始趋于标准化呢?
把权重刻进硅片里,然后用极致专用架构换吞吐,把成本直接干下来。
现在看模型格局开始集中化,头部模型的结构变化一旦稳下来,那确实值得有一条围绕自己结构设计的专用芯片线。
那这条路线的爆发力,可能会非常夸张。
如果是这样的话,有一个反共识的疑问, GPU形态真的会是永远的终局吗?
发布于 海南
