4月20日深夜,月之暗面开源Kimi K2.6,开源王座一夜易主
HLE「人类最后的考试」54.0分,碾压GPT-5.4与Claude Opus 4.6;SWE-Bench Pro软件工程实战58.6分,反超GPT-5.4的57.7;Terminal-Bench终端编码66.5分,GPT-5.4仅60.4。Artificial Analysis综合评测中,K2.6直接坐上全球开源第一的位置。
抛开跑分,真正震撼的是它的实际交付能力。给一个prompt,K2.6 Agent能同时产出品牌视觉系统、带动画关键帧的可交互前端,以及真实可运行的后端逻辑——座位选择、航班预订、持久化存储,一次生成,全部到位,不是Demo,是可以直接进项目的代码。
集群规模的跃升同样令人咋舌。从K2.5的100个子Agent、1500步,K2.6直接拉到300个子Agent、4000步,支持连续13小时不中断编码,单次修改超4000行代码。
内部测试中,它自主重构了一个8年历史的金融撮合引擎,峰值吞吐量飙升133%。实战测试中,集群一次性交付了复刻高盛风格的硅谷AI竞争格局研报,以及覆盖60家企业的76页PDF、Excel底表与英文PPT三件套,跨文档数据零误差——这种「交付即可审计」的完成度,真人团队都不一定做得到。
而「Claw群组」的出现,预示着更大的范式转变。它允许来自不同设备、不同供应商的AI Agent与人类进入同一协作群组,K2.6担任全局协调者,动态分配任务、主动管理交付物全生命周期,某个Agent故障时自动重新调度。
月之暗面自己的营销团队已在用它跑内容生产流水线。从一个Agent做一件事,到300个Agent做一套事,再到人类和Agent坐进同一个群里并肩干活——进化的从来不是技术参数,而是「我们」的边界。
