来自贾扬清对 Llama 3.1 的点评总结：1. 现阶段 Llama 3.1 405B 成本较高，要占用半台或整台服务器运行，成本相对比较高，速度也只能 30 tokens/sec，而相对应的 70B 能超过 150 tokens/sec。2. 预计未来一年内 405B 效率至少提升 4 倍3. int8/fp8 是 LLM 推理量化精度的未来方向4. 在垂直应用中，

来自贾扬清对 Llama 3.1 的点评总结：
1. 现阶段 Llama 3.1 405B 成本较高，要占用半台或整台服务器运行，成本相对比较高，速度也只能 30 tokens/sec，而相对应的 70B 能超过 150 tokens/sec。
2. 预计未来一年内 405B 效率至少提升 4 倍
3. int8/fp8 是 LLM 推理量化精度的未来方向
4. 在垂直应用中，你可能不需要 405B 那么大的模型。70B 已经足够好，在许多情况下，经过微调的 8B 模型就已经非常优秀了！并且 Llama 3.1 允许和鼓励你微调自己的模型
5. 期待 Mistral 的 Large 123B，但目前只能学术用途
6. 最后是广告，他们的 LeptonAI API 在速度、价格、并发性和成本等多个参数之间做出了精心的平衡

推文：http://t.cn/A68chZU2

发布于美国