Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏!
给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测!
本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音!
其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成.
最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确.
而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS).
另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验.
#HOW I AI##kimi-k2.6##月之暗面##harness# http://t.cn/AXxMtjuX
发布于 北京
