美团发布LongCat2.0
美团于6月30日正式发布并开源了新一代基础大模型LongCat-2.0,该模型最引人注目的突破在于全程依托国产算力集群完成了万亿级参数模型的训练与推理,验证了国产芯片在前沿AI领域的工程可行性。
规模与激活机制:模型总参数达到1.6万亿(1.6T),采用混合专家(MoE)架构,每个Token平均激活约480亿参数(动态范围在33B至56B之间)。
长文本支持:原生支持100万(1M)超长上下文窗口,可一次性处理百万字级的大量输入内容。
底层创新技术:
引入业界首创的“零计算专家机制”,实现Token级动态计算预算,让复杂Token激活更多专家,简单Token节省算力。
采用稀疏注意力机制(LSA),将长文本的计算量从平方级降至线性级,结合ScMoE跨层快捷连接架构,有效提升了计算效率。
全程国产算力训练的里程碑意义
万卡集群实战:这是业界首个在五万张(峰值达5至6万张)国产算力芯片上完成从预训练到推理全流程闭环的万亿参数大模型。
工程与稳定性突破:自2023年起美团便与国产算力厂商推进“模芯协同”研发,逐步攻克了万卡级容错恢复、NPU确定性计算等核心难题,将月均日故障率降低了70%以上,稳态日吞吐量超过1T Tokens。
成本优势:得益于底层算子优化与架构创新,LongCat-2.0的训练与推理成本消耗低于全球其他同级别的万亿参数大模型。
发布于 北京
