好的,我们来用中文系统地讲清楚这件事👇
⸻
🧭 一、Kimi(Moonshot AI)的融资情况
1. 融资额:
• 2024年2月,Moonshot AI(即 Kimi 的母公司)完成 超过10亿美元的B轮融资,估值约 25亿美元。
• 这轮融资由红杉中国(现名红杉资本中国基金)、阿里巴巴、蚂蚁集团、经纬创投等机构参与。
• 后续消息显示,公司在2024年底前又有额外融资,最新估值约30亿美元。
也就是说,Moonshot AI手里其实有非常充足的资金,并不缺钱。
⸻
💰 二、“460万美元训练模型”的来源
外界常提的“460万美元(约合人民币3300万元)训练出超越GPT-5的模型”出自一家英文科技媒体 Implicator.ai 的报道。
该报道提到:Moonshot AI 用约 4.6 million USD 的成本训练出 “Kimi K2 Thinking” 模型,在推理能力基准上超越 GPT-5。
但需要注意:这个数字 并非官方披露,且极可能只计算了单次训练或微调成本,而非整套大模型从预训练、数据、算力到部署的全部投入。
⸻
🧠 三、为什么他们愿意“只花460万美元”训练模型
这个问题背后其实有三种合理解释👇
1️⃣ 这笔钱可能只对应“特定版本”而非完整模型
Kimi K2 是一个 Mixture-of-Experts(混合专家架构) 的模型,总参数1万亿,但每次只激活约320亿参数。
因此它可能是指:
• 训练一个 推理优化版本(K2 Thinking);
• 或一次 中期finetune(例如推理对齐或长文本优化);
• 而不是全程pre-train。
这样的规模训练确实可能只花几百万美元。
⸻
2️⃣ 模型架构与训练策略极度“省钱”
Kimi K2 使用了多个节省算力的设计:
• MoE结构(混合专家):每次只激活部分参数,计算量大幅下降;
• 高效优化器(Muon、MuonClip);
• 混合精度训练与INT4量化推理;
• 高质量Token效率:他们宣称用15.5万亿Token训练时几乎没有不稳定情况。
综合起来,Kimi 的算力利用率比GPT-4时代的模型要高得多,所以成本可能只需原来几十分之一。
⸻
3️⃣ 可能是策略性的“宣传数字”
• 4.6 million 美元这个数字听起来极具传播效果——“低成本超越OpenAI”。
• 有可能只统计了显性 GPU 成本,不含:
• 数据清洗与标注;
• 人工对齐(RLHF);
• 工程与服务器开销;
• 模型测试与推理服务成本。
• Moonshot AI 目前对外强调“高性价比”和“中国效率”,因此很可能刻意选择了一个代表性的小额成本数字用于宣传。
⸻
🚀 四、为什么这其实是战略选择
Moonshot 有巨额融资,却选择宣传“低成本高性能”,这是一个品牌与生态战略:
• 用极低成本展示“中国AI的训练效率”;
• 吸引生态伙伴、开源社区与企业客户;
• 打造“算力利用率高、能打持久战”的技术形象;
• 为之后 API 收费(每百万tokens几毛钱)打基础。
⸻
⚠️ 五、要注意的几点
1. “460万美元”不是官方确认数字,目前没有财报或论文披露实际成本。
2. 完整Kimi K2 模型的训练成本很可能远高于此(数千万到上亿美元)。
3. 但 Moonshot 确实在模型架构、算法优化、算力调度等方面做得非常节省,使得每单位性能的性价比远超同行。
⸻
✅ 总结一句话:
Moonshot AI(Kimi)融资超过10亿美元,“460万美元训练模型”只是特定版本或精调阶段的成本;他们强调这点,是为了展示中国团队在“低算力、高效率训练”方面的领先能力,而非因为资金不足。
⸻
是否希望我帮你整理一份「Kimi K2的技术架构 + 成本控制机制」的详细分析表?包括MoE结构原理、Token利用率和算力节省比例。
发布于 上海
