宝玉xp 25-09-25 08:33
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

Meta 新发布了一个开源模型,叫代码世界模型 (Code World Model, CWM),模型参数32B,它和传统的大语言模型不一样,是利用世界模型,让 AI 智能体 (AI Agent) 学会推理和规划,从而提升代码生成能力。

这有点不太好理解,如果你了解传统编程的话,好的程序员在写代码之前,会先在脑海里把程序跑一遍。

这个过程很奇妙,它不是简单地默念语法,而是一种无声的、内在的“沙盘推演”。变量如何变化,循环在哪一轮终止,条件判断会走向哪个分支……我们通过在脑中模拟代码的执行,来预测它的行为,发现潜在的错误。这是一种关乎因果、关乎状态变化的深度思考。

现在的大语言模型并不是这种模式工作的。

Meta 认为现在的大语言模型尽管它们能写出看似完美的代码片段,但这种“代码生成”更像是一种基于海量语料库的、极其复杂的“代码模仿”,而非对代码背后那个动态世界的真正理解。它们知道什么代码“看起来”是对的,却不一定“理解”它运行起来会发生什么。

Meta 发布的 Code World Model (CWM) 尝试弥合的,正是“看起来对”和“运行起来会怎样”之间的鸿沟。

这个项目最核心的思路,不是让模型再多看几万亿行的代码文本,而是训练它去模拟代码执行的后果。这就像教一个人下棋,不仅要让他记住棋谱,更要让他能在脑子里推演落子之后可能出现的种种局面。Meta 团队用了一个很贴切的比喻——一个“神经元版本的代码调试器”(neural pdb)。它能在内部追踪一段代码的执行状态,预测出下一步的结果。

在 Meta 看来,这种从“文本生成”到“状态模拟”的转变,意义远不止是写出更准确的代码,而是去观察 AI Agent 如何真正学会“规划”与“推理”。一个能够预测自己行为后果的智能体,才有可能在复杂的环境中做出真正有效的决策,而不是不断试错。

实际效果如何呢?

按照 Meta 论文上展示的多任务强化学习的测试结果,CWM 在其同等规模的模型中表现出色:在 LiveCodeBench v5 上取得了 67.6% 的成绩,在 AIME24 上达到 76%,在 SweBench Verified 上通过推理时扩展达到了 65.8%。

我对比了一下当前 LiveBench 上的评分,不算太高,但作为30B的模型是挺不错了。

我个人暂时想先观望一下,因为我并不认为像现在的大语言模型是没有“世界模型” (参考我前几天发的这篇:http://t.cn/AX7zhwlJ ),实际上现在的推理模型不是简单的模仿生成,就我这段时间深度体验 GPT-5-Codex High 的结果来看,它真的是懂代码的,有时候比我自己还懂。

内心里我还是希望它是有效果的,拭目以待。

➡️ Read the technical report: http://t.cn/AX7zhwl6
➡️Download the open weights: http://t.cn/AX7zhwli
➡️Download the code: http://t.cn/AX7zhwlx

发布于 美国