Kimi-K2.5发布! 全模态+Agent能力增强!
Kimi K2.5 正式发布! 1T 总参数 32B 激活, 256K 上下文, 还是原生多模态!
技术上的创新是用了 PARL (并行智能体强化学习), 用来解决"串行坍缩"问题 - 就是模型明明有并行能力却习惯性排队执行, 因为模型本身支持交叉思考, 思考过程中是可以调用Agent执行子任务的. 所以并行有很大优势.
那么怎么优化的呢? 官方的解决方案是分阶段奖励塑造, 早期鼓励开子进程探索, 后期专注任务质量. 还引入了 Critical Steps 指标 (真·项目管理了), 只有真正缩短关键路径的并行才算数, 防止"假并行".
得益于此本次Agent能力提有了很大的提升, 比如可以结合自家的 Agent Swarm 智能体集群 - 一个主智能体可以自动调度最多 100 个子智能体并行干活, 执行高达 1500 次工具调用, 官方数据相比单智能体方案快了 4.5 倍! 关键是这些子智能体不需要预定义角色, 完全由模型自己动态创建和协调, 有点 AI 自己当项目经理的味道了.
另一个亮点是视觉引导编程, 直接看 UI 设计图或视频就能写代码, 还能自主视觉调试 - 看自己输出的效果图, 不满意就改, 端到端闭环了.
跑分上: HLE-Full 带工具达到 50.2 分, 超过 GPT-5.2 (45.5) 和 Gemini-3 Pro (45.8); BrowseComp 搜索基准 60.6 分吊打 Claude 4.5 (37.0), Agent Swarm 模式更是飙到 78.4; OCR 和文档理解 (InfoVQA 92.6, OCRBench 92.3) 也是全场最高.
代码能力上 SWE-Bench Verified 是 76.8 vs Claude 4.5 80.9. 作为开源模型, 这个表现相当炸裂了!
稍后俺马上为大家带来实测! (我预感又要通宵了....)
#HOW I AI#
