爱可可-爱生活 26-02-07 08:19
微博认证:AI博主 2025微博新锐新知博主

【当AI学会搭积木:一个让大模型「现原形」的空间智能测试】

我们总说大模型越来越聪明,但怎么证明?刷榜MMLU?背诵维基百科?一位开发者另辟蹊径,设计了一个体素建造测试,让AI用代码「搭积木」,结果相当有趣。

测试方法很直接:给模型一段系统提示和一个自定义工具,让它输出JSON代码来渲染三维建筑。没有参考图片,纯靠文字描述和空间想象。这不是图像生成,而是让模型真正理解三维空间关系,然后用代码把脑子里的画面「砌」出来。

Opus 4.6相比4.5的提升肉眼可见。以宇航员主题为例,4.5能搭出大致轮廓,但4.6不仅比例更精准,还会主动添加细节,比如背景里的登月舱和旗帜。这种「主动补全场景」的能力,某种程度上反映了模型对语义的深层理解。

有意思的是成本账:用Opus 4.6跑7个建造测试花了大约22美元。贵吗?看跟什么比。如果这能真正测出模型的空间推理能力,比那些文本复读机式的基准测试有价值多了。

社区里有人追问GPT 5.3 Codex的表现。开发者做了个非正式测试,结果是Codex「碾压全场」。但他特别强调这不是公平比较,因为Codex有额外的外部工具,能自己运行和编译代码,而基准测试只给模型一个纯粹的体素构建函数。工具的差异会放大结果的差异,这个诚实的说明本身就很有价值。

评论区最热闹的讨论是关于游戏的未来。有人兴奋地说,程序化生成的游戏世界要起飞了。也有人泼冷水:地图一直变,玩起来有什么意思?但更清醒的观点是:人类控制叙事主线,AI负责动态响应玩家行为,这才是正确的分工。

还有开发者现身说法:虽然没把AI集成进自己的体素引擎,但用Claude和Codex来写引擎代码,效率提升明显。这可能才是当下AI辅助开发的最佳姿势。

一个好的基准测试,不是为了给模型排座次,而是为了暴露能力边界。当我们让AI从「说」转向「做」,从文本转向空间,很多虚假的智能就会露馅。能把积木搭好看的模型,大概率也能把代码写明白。

项目已开源,感兴趣可以自己试试:minebench.vercel.app

www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/

发布于 北京