给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试.
这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力.
DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次).
结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率).
目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待.
#HOW I AI##deepseek##deepseekv4##deepseekv4pro##deepseekv4flash# http://t.cn/AXxjZoQ9
发布于 北京
