Taalas 发布“硬核”AI芯片 HC1:推理速度号称最高达 17,000 tokens/s。
据《》报道,在特定设置下,其速度约为 晶圆级引擎的 10 倍、GPU 的百倍级(具体取决于提示、批处理和延迟目标)。公司同时完成 1.69 亿美元融资。
不同于 GPU 或 TPU 通过软件加载模型,HC1 直接把模型及权重“烧录”进 ASIC,把 的 Llama3.1-8B 做成“硅上模型”。
极致推理速度
单 token 成本极低(称约 0.75 美分 / 百万 tokens)
功耗 12–15kW / 机架(GPU 机架约 120–600kW)
几乎放弃通用性(不同模型需不同芯片)
模型升级需改金属层(约 2 个月)
目前采用 3-bit/6-bit 混合量化,精度受限
本质是把“通用算力”推向“极致专用”。
如果规模化落地,推理成本曲线可能被彻底改写。
发布于 广东
