世界上最强大的智能体模型现已开源Kimi K2,阿里巴巴投资的Moonshot在四个月内发布了其第二次人工智能更新,与 GPT-5、Sonnet 4.5、Gemini 2.5 Pro 和 Grok 4 相比,价格便宜 6 倍。
在某些基准测试中,该模型在几个标准评估中表现优于 OpenAI 的 GPT-5、Anthropic 的 Claude Sonnet 4.5(思考模式)和 xAI 的 Grok-4,这是开源人工智能系统竞争力的一个转折点。
Kimi K2 Thinking 是一种开放的推理模型,它将前沿级别的智能体行为带给每个人,具有 44.9% 的 HLE(人类的最后考试)、60.2% 的 BrowseComp、256K 的上下文以及 200-300 个顺序工具调用,从而能够进行强大的推理、搜索和编码。
K2 Thinking 采用推理 MoE 设计,总参数为 1T,每个令牌有 32B 个活动参数,因此它能够扩展容量,同时保持每个步骤的计算量可控。
该系统专为测试时间扩展而设计,它会花费更多的思考代币和更多的工具调用次数来解决难题,这使得它能够在没有帮助的情况下规划、验证和修改长链。
交错式思维意味着在行动和工具之间插入私人推理,因此它可以阅读、思考、调用工具、再次思考,并在数百个步骤中保持上下文。
这里的工具调用是用于搜索、代码执行或其他服务的结构化函数,模型将它们链接起来以收集事实、运行代码,并在下一个决策中使用结果。
256K 上下文窗口允许它一次加载长文档、扩展聊天记录或多个工具输出,然后随着计划的演变,将注意力集中在正确的跨度上。
服务通过对 MoE 部分进行 INT4 QAT(量化感知训练)进行优化,从而在保持准确性的同时,生成速度提高了约 2 倍,并且报告的分数是在原生 INT4 推理下获得的。
使用 QAT,模型在训练后学习使用 4 位权重,从而减少事后量化通常造成的精度损失[并不简单]#ai生活指南##ai创造营#
