Andrej Karpathy：DeepSeek（中国人工智能公司）今天表现得游刃有余，发布了一款前沿级LLM的开放权重模型，并且该模型的训练预算极其紧张（2048 个 GPU 运行 2 个月，耗资 600 万美元）。作为参考，这种级别的能力通常需要近16,000个GPU的集群，而目前正在投入使用的GPU数量则接近10万个。例如，Llam

Andrej Karpathy：DeepSeek（中国人工智能公司）今天表现得游刃有余，发布了一款前沿级LLM的开放权重模型，并且该模型的训练预算极其紧张（2048 个 GPU 运行 2 个月，耗资 600 万美元）。

作为参考，这种级别的能力通常需要近16,000个GPU的集群，而目前正在投入使用的GPU数量则接近10万个。例如，Llama 3 405B 使用了 3080 万 GPU 小时，而 DeepSeek-V3 看起来是一个更强的模型，仅使用了 280 万 GPU 小时（计算量减少了约 11 倍）。如果该模型还能通过氛围检查（例如LLM竞技场排名正在进行中，我的一些快速测试到目前为止进展顺利），这将在资源限制下展现出非常令人印象深刻的研究和工程成果。

这是否意味着你不需要大型 GPU 集群来应对前沿LLMs？不，但你必须确保不浪费现有资源，这看起来是一个很好的示范，表明在数据和算法方面仍有很多工作要做。

非常棒且详细的技术报告，正在阅读中。

链接：http://t.cn/A6uGFQ3r

发布于北京