karminski-牙医 26-04-27 13:50
微博认证:AI博主

给大家同步一下DeepSeek-V4 的测试进度,目前前面几项大家熟悉的测试都已经跑完了,还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试,这几个正在跑了。

然后这次我还增加了【大模型工程能力测试】,说下测试核心设计思路:
首先工程项目我选择了酒馆(SillyTavern-1.17.0),然后写的需求文档是让被测试大模型给酒馆增加一个支持实时解释器的数值系统。大家都知道酒馆其实搭配各种插件其实是可以实现数值系统的,比如RPG数值系统。

但是,大模型是没办法凭空创造数值逻辑的,所以本次的需求就是让大模型通过tool_call可以创建新的数值系统,比如属性,状态,天赋等等,并且定义数值与现有数值系统的逻辑,即,它可以注入一段js代码,与已有的js代码交互,形成新的逻辑。

比如现在只有hp,数值100/100, 然后AI可以通过调用我们的数值系统,创建一个新的状态,叫做中毒,中毒状态持续10个tik, 然后每个tik会减少10点生命值。这一切全是我们的数值系统在AI创建这个js代码逻辑后自动执行的,不需要AI再接管。

这样一来是可以大大拓展可玩性,二来是大模型不会因为玩家【求求你了我快寄了给我加1000HP】轻松实现作弊。

然后,我还需要魔改terminal coding cli (本次使用的是kimi cli), 即,大模型需要使用魔改后的kimi-cli 来fork一份酒馆源代码来实现我们这个新需求,而这个魔改的kimi-cli 可以监督大模型的实现过程,统计大模型的token使用,使用工具的情况和能力,最终再运行我们专门为这个需求定制的黑盒测试,实现真正的【工程级别分析】。酒馆源代码足足有20万行,纯js也有13万行,作为测试项目工程量足够大了。

除此之外,我还魔改了酒馆源代码模板(就是AI要fork那一份),增加了酒馆cli模式,这个模式可以让被测试大模型实现harness闭环,即模型修改完代码了,可以进入cli模式自己玩酒馆测试一下,看看对不对,从而反复迭代自己的代码,还顺便考验了大模型的 Agent能力。

总之,还请大家稍安勿躁,我会尽快放出测试视频。【跪谢大家[跪了]】

#HOW I AI#

发布于 日本