来自贾扬清对 Llama 3.1 的点评总结:
1. 现阶段 Llama 3.1 405B 成本较高,要占用半台或整台服务器运行,成本相对比较高,速度也只能 30 tokens/sec,而相对应的 70B 能超过 150 tokens/sec。
2. 预计未来一年内 405B 效率至少提升 4 倍
3. int8/fp8 是 LLM 推理量化精度的未来方向
4. 在垂直应用中,你可能不需要 405B 那么大的模型。70B 已经足够好,在许多情况下,经过微调的 8B 模型就已经非常优秀了!并且 Llama 3.1 允许和鼓励你微调自己的模型
5. 期待 Mistral 的 Large 123B,但目前只能学术用途
6. 最后是广告,他们的 LeptonAI API 在速度、价格、并发性和成本等多个参数之间做出了精心的平衡
推文:http://t.cn/A68chZU2
发布于 美国
