#美团发布首个开源大模型##美团大模型追平DeepSeek#
没想到啊,最新SOTA的开源大模型……
来自一个送外卖(Waimai)的——有两个AI,确实不一样。
这个最新开源模型叫:Longcat-Flash-Chat,美团第一个开源大模型,发布即开源,已经在海内外的技术圈子里火爆热议了。
一方面是因为成绩亮眼:它在部分benchmark上,比如Agent工具调用、指令遵循的表现超过DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。
编程能力也值得关注,在TerminalBench上,和公认的"编程之王"Claude4 Sonnet不相上下。【图1】
比如非常流行的小球氛围编程测试,LongCat编写的程序,运行起来效果是这样的:【图2】
另一方面是技术报告中透露出不少美团对于大模型的理解,包括DSMoE、MLA、动态计算、Infra等等。
我觉得这是中国大模型里最讲得详细的论文了,甚至超过Kimi、GLM,特别是在建模和infra方面。【图3】
要知道,这可是一家"外卖公司"啊(手动狗头),做的模型都比Meta好了。【图4】
而且不光是模型性能好,技术报告里还介绍了一系列新发现,比如:
- 采用新路由架构,调用真正需要的专家模型,使计算更少;
- 通过将MoE和密集层的通信重叠执行,优化模型通信效率;
- 使用新方法来迁移超参数而不是muP
以及无论是在总参数量还是激活参数上,Longcat-Flash-Chat都比DeepSeek-V3.1和Kimi-K2更少。下面具体来看:http://t.cn/AXPZUCqr
