Code Arena 跑了七十多个视觉编程提示词,对排名前四的国产开源模型进行了贴脸对比。在 Code Arena 排行榜上 GLM 和 Kimi 排在前头,MiMo 和 DeepSeek 紧随其后。
GLM 5.1 的表现最稳,生成 3D 斗兽场和金门大桥时结构非常扎实,细节拉满,连贯性最接近闭源大牌。偶尔会有悬浮或者屋顶塌陷的小毛病,但综合可靠性绝对配得上榜首位置。Kimi K2.6 走的是另一路,在 SVG 动画和网页设计里明显更有想法,风格放得开,不过偶尔也会用力过猛导致元素重叠或者结构断裂,属于创意强但容错率偏低的选手。
MiMo v2.5 Pro 让人又惊又怕,简单任务能给出很有深度的网页,但在复杂 3D 提示词下频频翻车,各种奇怪的层级叠加和地形错误,稳定性是个大问题。DeepSeek V4 Pro 在 Code Arena 的这轮测评中表现垫底,3D 场景经常杂乱无章,网页排版也有些粗糙拥挤,整体比 GLM 差了一个段位,需要加快迭代进行追赶。Code Arena 的工程师表示,排行榜数据只能参考,实际体验还自己上手多跑跑才知道。
#国产模型##开源大模型##HOW I AI# http://t.cn/AXiagSiY
发布于 上海
