Meta发布代码世界模型CWM

Meta 新发布了一个开源模型，叫代码世界模型 (Code World Model, CWM)，模型参数32B，它和传统的大语言模型不一样，是利用世界模型，让 AI 智能体 (AI Agent) 学会推理和规划，从而提升代码生成能力。

这有点不太好理解，如果你了解传统编程的话，好的程序员在写代码之前，会先在脑海里把程序跑一遍。

这个过程很奇妙，它不是简单地默念语法，而是一种无声的、内在的“沙盘推演”。变量如何变化，循环在哪一轮终止，条件判断会走向哪个分支……我们通过在脑中模拟代码的执行，来预测它的行为，发现潜在的错误。这是一种关乎因果、关乎状态变化的深度思考。

现在的大语言模型并不是这种模式工作的。

Meta 认为现在的大语言模型尽管它们能写出看似完美的代码片段，但这种“代码生成”更像是一种基于海量语料库的、极其复杂的“代码模仿”，而非对代码背后那个动态世界的真正理解。它们知道什么代码“看起来”是对的，却不一定“理解”它运行起来会发生什么。

Meta 发布的 Code World Model (CWM) 尝试弥合的，正是“看起来对”和“运行起来会怎样”之间的鸿沟。

这个项目最核心的思路，不是让模型再多看几万亿行的代码文本，而是训练它去模拟代码执行的后果。这就像教一个人下棋，不仅要让他记住棋谱，更要让他能在脑子里推演落子之后可能出现的种种局面。Meta 团队用了一个很贴切的比喻——一个“神经元版本的代码调试器”（neural pdb）。它能在内部追踪一段代码的执行状态，预测出下一步的结果。

在 Meta 看来，这种从“文本生成”到“状态模拟”的转变，意义远不止是写出更准确的代码，而是去观察 AI Agent 如何真正学会“规划”与“推理”。一个能够预测自己行为后果的智能体，才有可能在复杂的环境中做出真正有效的决策，而不是不断试错。

实际效果如何呢？

按照 Meta 论文上展示的多任务强化学习的测试结果，CWM 在其同等规模的模型中表现出色：在 LiveCodeBench v5 上取得了 67.6% 的成绩，在 AIME24 上达到 76%，在 SweBench Verified 上通过推理时扩展达到了 65.8%。

我对比了一下当前 LiveBench 上的评分，不算太高，但作为30B的模型是挺不错了。

我个人暂时想先观望一下，因为我并不认为像现在的大语言模型是没有“世界模型” （参考我前几天发的这篇：http://t.cn/AX7zhwlJ ），实际上现在的推理模型不是简单的模仿生成，就我这段时间深度体验 GPT-5-Codex High 的结果来看，它真的是懂代码的，有时候比我自己还懂。

内心里我还是希望它是有效果的，拭目以待。

➡️ Read the technical report: http://t.cn/AX7zhwl6
➡️Download the open weights: http://t.cn/AX7zhwli
➡️Download the code: http://t.cn/AX7zhwlx

发布于美国