Taalas公司AI芯片技术解析

刷到一个公司Taalas，一家Al芯片公司，团队只有二十多人，却已经融资超过2亿美元。
首款产品HC1走了一条极端路线：用Mask ROM工艺把Llama3.18B的权重直接固化在硅片金属层里，计算单元和模型参数在同一块硅上，几乎放弃可编程性，换来吞吐，延迟和能效的极限优化。
现在他们固化的是Llama3.18B，体验了下，回答问题不靠谱，很不稳。
但问题在于它快得离谱，体验上非常反直觉，能把Groq碾成渣渣，单芯片17,000tokens/s的输出能力，眨个眼的功夫干出来几万字，这个比数据库查询能力都牛逼。
如果未来的大模型真的只剩几家头部在迭代，模型结构逐渐稳定，权重更新频率放缓，那么给某一个确定模型单独做一颗芯片，可能一点都不疯狂。
我们现在默认模型会一直剧烈变化，所以算力必须通用。
但如果模型开始趋于标准化呢?
把权重刻进硅片里，然后用极致专用架构换吞吐，把成本直接干下来。
现在看模型格局开始集中化，头部模型的结构变化一旦稳下来，那确实值得有一条围绕自己结构设计的专用芯片线。
那这条路线的爆发力，可能会非常夸张。
如果是这样的话，有一个反共识的疑问， GPU形态真的会是永远的终局吗?

发布于海南