karminski-牙医 26-04-14 06:22
微博认证:AI博主

月之暗面给用户发了一波邮件, 直接说测试的 kimi-k2.6-code-preview 要正式发布了. 估计就是这周了?

结合之前GLM-5.1 的长程任务优化, 他们demo是只需要一个框架而没有人工干预, GLM-5.1 花了8小时自己撸了个Linux桌面(注意是桌面不是操作系统本身, 包含整个桌面UI和各种桌面APP的模拟).

而 MiniMax-M2.7 则是专门针对Agent和SKILL优化的, 包括可以结合20个SKILL协同工作, 以及团队搞了个面向Agent的RL框架, 去结合本地记忆(我看了下是用本地markdown文件实现的)进行Agent任务性能优化.

所以盲押一波这次 Kimi-K2.6 至少应该这两个方向会发力搞一个, 不过我对极致的面向 ClawBench 做性能优化是完全反对的, 主要问题有两个, 一个是 ClawBench 任务重复性大, 100个测试中实际上专注邮件的任务有很多, 而国内除非大厂否则一般打工人不会在工作中用邮件来沟通的. 另一个是 ClawBench 作为单一指标可以, 但是如果只盯着这个优化就会跑偏甚至影响基础的 数学 / Coding 能力.

等正式发布后给大家带来测试~
#HOW I AI##kimik26##kimi##月之暗面#

发布于 北京