karminski-牙医 26-01-29 23:37
微博认证:AI博主

kimi-K3架构提前曝光!

刚刷reddit上月之暗面这次kimi-k2.5发布的官方AMA(问我任何问题), 看到好多人都在问 kimi-k3, 我梳理了下Kimi-K3可能的架构并且与现在kimi-k2.5架构上的不同之处:

首先可以确定的是仍然会是一个多模态并且同时拥有文本, 图片, 视频模态的模型, 不太可能会增加音频模态, 因为官方说目前资源不够, 想把更多注意力放在Agent能力上.

架构上最大的变化是: K3 很可能会采用 Linear Attention 架构! 官方透露 Kimi Linear 是一个与 K2.5 并行的专项研究, 而且他们正在"重金投入"线性注意力作为未来模型的关键方向. 更夸张的是官方直接放话说 K3 将比 K2.5 好 10 倍以上! (这flag立得, 我先截图了...)

另外 K3 还会引入持续学习能力, 让 Agent 能够更长时间有效工作. RL 计算量也会持续增加, 特别是在 Agent 领域会有更多新的目标函数. Instruct 模式和 Thinking 模式会联合训练, 一起变强.

本次AMA还透露了很多K2.5的技术细节: 训练用了 15T tokens, 但官方认为这种"过度训练"不是浪费而是一种trade-off, 训练耗时多拉高模型能力, 推理时思考步骤就会减少, 能给大家省token.

目前 Scaling Laws 确实在传统方式上收益降低了, 但 Agent Swarm 这种测试时扩展是新方向. 他们还有个叫 Scaling Ladder 的验证方法 - 从单CPU能跑的小模型开始实验, 逐步放大验证, 大多数小规模有效的想法放大后都会失败!

另外社区很喜欢kimi系列不谄媚的风格, 官方说这是故意的: "持续强化用户的想法可能是危险的". 不过每次更新模型personality都会变, 因为 Reward Model 的"灵魂"很难准确评估, 未来可能会存储用户偏好来个性化. (嗯? 该不会看了 DeepSeek Engram 的论文?)

最后按照localllama频道一贯的尿性, 大家还是想要个能本地部署的小模型 (这问题热度最高 95+ upvotes)! 官方说正在考虑 200B-300B.

期待一波K3, 就看官方这个10倍的flag能不能兑现了哈哈

#HOW I AI##Kimik3##kimik25##月之暗面##moonshot##AMA#

发布于 日本