Andrej Karpathy:DeepSeek(中国人工智能公司)今天表现得游刃有余,发布了一款前沿级LLM的开放权重模型,并且该模型的训练预算极其紧张(2048 个 GPU 运行 2 个月,耗资 600 万美元)。
作为参考,这种级别的能力通常需要近16,000个GPU的集群,而目前正在投入使用的GPU数量则接近10万个。例如,Llama 3 405B 使用了 3080 万 GPU 小时,而 DeepSeek-V3 看起来是一个更强的模型,仅使用了 280 万 GPU 小时(计算量减少了约 11 倍)。如果该模型还能通过氛围检查(例如LLM竞技场排名正在进行中,我的一些快速测试到目前为止进展顺利),这将在资源限制下展现出非常令人印象深刻的研究和工程成果。
这是否意味着你不需要大型 GPU 集群来应对前沿LLMs?不,但你必须确保不浪费现有资源,这看起来是一个很好的示范,表明在数据和算法方面仍有很多工作要做。
非常棒且详细的技术报告,正在阅读中。
链接:http://t.cn/A6uGFQ3r
发布于 北京
