1.7万 tokens/秒推理速度！Taalas 推出首款产品 HC1，搭载 Llama 3.1 8B 模型，性能达每用户 17,000 tokens/秒，较现有技术快近 10 倍，制造成本降低 20 倍，功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式，存在轻微精度损失，但第二代产品将采用标准 4-bit 浮点格式，进一步优化性能。 _新浪新闻

rmrf 26-02-21 09:27

1.7万 tokens/秒推理速度！Taalas 推出首款产品 HC1，搭载 Llama 3.1 8B 模型，性能达每用户 17,000 tokens/秒，较现有技术快近 10 倍，制造成本降低 20 倍，功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式，存在轻微精度损失，但第二代产品将采用标准 4-bit 浮点格式，进一步优化性能。

发布于上海