蚁工厂 25-09-22 20:47
微博认证:科技博主

Jingyuan Liu(之前是kimi的工程师,现在貌似在meta),谈中美两国的大型语言模型实验室的差异。这段话是在前几天 Qwen-next 发布没多久时说的。
--------------------------
我很有幸曾在中美两国的大型语言模型实验室都工作过,对此我也思考了一段时间。目前,双方在预训练方面的核心理念确实存在差异:

美国实验室的风格是:
拥有大量GPU,能进行更大规模的算力(FLOPS)训练。
极其重视训练的稳定性,无法容忍大规模训练中出现的(损失)尖峰,因此发明了众多维持稳定性的技巧,例如各种软上限(soft-cap)、μP(最大更新参数化)以及谱归一化控制等方法。
极其重视性能的可预测性(可以参考GPT-4的技术报告),甚至会尝试预测模型在未来评估任务上的性能表现。
出于对稳定性和可预测性的要求,他们对超参数和优化策略也更为看重。
总体而言,相比模型架构(arch),他们更相信数据和优化的力量。

中国实验室的风格则是:
GPU资源非常有限,例如,K2项目大约用了4000张GPU,而V3项目只用了2000张GPU。
因此,他们致力于将预训练中的“模型-基础设施”协同设计推向极致。你可以在V3项目中看到许多相关技巧,K2项目也有一些很亮眼的设计(比如其Offload技术摆脱了MoE门控机制的限制,仅使用16路专家并行(EP 16))。
相较于优化和稳定性,他们更关心模型架构和Token效率(1)。
相较于数据数量,他们更关心数据质量。
从项目第一天(甚至在训练开始前),就把推理(inference)成本和效率纳入考量。

总而言之,中国实验室正试图用低于 4e+24 FLOPS(2) 算力训练出的模型,去追赶那些使用超过 1e+25 FLOPS 算力训练的模型。这非常困难,甚至近乎不可能,但他们确实在取得良好的进展。

实际上,我很高兴看到 Qwen 在模型架构上的新尝试。他们过去更专注于数据层面,而非模型架构。这次他们开发了线性注意力(Linear Attention),这并非只是为了让外界看起来他们在创新,而是在实际考虑如何将模型在推理阶段的可扩展性推向极限。Llama 4的失败背后有很多原因,但下一代千问(Qwen-next)的情况不同。他们只用了非常有限的算力,但这是一次有充分理由支撑的、勇敢的尝试。

#AI创造营##AI生活指南##微博兴趣创作计划#

发布于 山东