AI空间智能测试方法

【当AI学会搭积木：一个让大模型「现原形」的空间智能测试】

我们总说大模型越来越聪明，但怎么证明？刷榜MMLU？背诵维基百科？一位开发者另辟蹊径，设计了一个体素建造测试，让AI用代码「搭积木」，结果相当有趣。

测试方法很直接：给模型一段系统提示和一个自定义工具，让它输出JSON代码来渲染三维建筑。没有参考图片，纯靠文字描述和空间想象。这不是图像生成，而是让模型真正理解三维空间关系，然后用代码把脑子里的画面「砌」出来。

Opus 4.6相比4.5的提升肉眼可见。以宇航员主题为例，4.5能搭出大致轮廓，但4.6不仅比例更精准，还会主动添加细节，比如背景里的登月舱和旗帜。这种「主动补全场景」的能力，某种程度上反映了模型对语义的深层理解。

有意思的是成本账：用Opus 4.6跑7个建造测试花了大约22美元。贵吗？看跟什么比。如果这能真正测出模型的空间推理能力，比那些文本复读机式的基准测试有价值多了。

社区里有人追问GPT 5.3 Codex的表现。开发者做了个非正式测试，结果是Codex「碾压全场」。但他特别强调这不是公平比较，因为Codex有额外的外部工具，能自己运行和编译代码，而基准测试只给模型一个纯粹的体素构建函数。工具的差异会放大结果的差异，这个诚实的说明本身就很有价值。

评论区最热闹的讨论是关于游戏的未来。有人兴奋地说，程序化生成的游戏世界要起飞了。也有人泼冷水：地图一直变，玩起来有什么意思？但更清醒的观点是：人类控制叙事主线，AI负责动态响应玩家行为，这才是正确的分工。

还有开发者现身说法：虽然没把AI集成进自己的体素引擎，但用Claude和Codex来写引擎代码，效率提升明显。这可能才是当下AI辅助开发的最佳姿势。

一个好的基准测试，不是为了给模型排座次，而是为了暴露能力边界。当我们让AI从「说」转向「做」，从文本转向空间，很多虚假的智能就会露馅。能把积木搭好看的模型，大概率也能把代码写明白。

项目已开源，感兴趣可以自己试试：minebench.vercel.app

www.reddit.com/r/ClaudeAI/comments/1qx3war/difference_between_opus_46_and_opus_45_on_my_3d/

发布于北京