OpenAI发布Codex-Spark模型

【当AI编程助手快到让你来不及思考】

OpenAI刚刚发布了GPT-5.3-Codex-Spark，一个专为实时编程设计的“小”模型。它跑在Cerebras的晶圆级芯片上，每秒能吐出1000多个token。

这块芯片本身就是个奇观：一整片晶圆做成一颗芯片，面积46255平方毫米，4万亿个晶体管，90万个AI核心。比英伟达B200多19倍晶体管、28倍算力。有人说它像餐盘那么大，这不是夸张。

速度提升不只来自芯片。OpenAI重写了整个推理栈，引入持久WebSocket连接，把客户端到服务器的往返开销砍掉80%，首个token的等待时间减半。当模型速度不再是瓶颈，工程架构就成了新战场。

有开发者用自己的“蓝狗基准测试”跑了一圈：Spark在低延迟模式下20秒完成任务，而完整版Codex要1分多钟。代价是什么？它确实有“小模型的感觉”，对AGENTS.md里的指令不够敏感，上下文管理也更粗放。

这揭示了一个正在成形的分工：快模型负责人机交互，慢模型负责深度推理。就像OpenAI说的，未来Codex会有两种模式，一边和你实时对话，一边把耗时任务扔给后台的子代理。你不必在速度和智能之间二选一。

有人已经在畅想用这种速度做什么：演讲时根据观众提问实时生成幻灯片，提到一篇论文就自动生成带截图和二维码的页面，然后无缝回到主线。每一场演讲都变成即兴表演。

也有人泼冷水：Cerebras芯片贵得离谱，一颗超过100万美元，一个机架只能装一颗，数据中心寸土寸金。而且整片晶圆做芯片，一个缺陷就可能报废整片。Cerebras声称他们能容忍缺陷并绕过它们，但规模化生产的考验才刚开始。

英伟达的护城河在松动吗？谷歌TPU在能效上步步紧逼，Cerebras在延迟上另辟蹊径。但英伟达的CUDA生态、产能合同、开发者惯性，这些软实力不是一两代芯片能撼动的。

最有意思的评论来自一位每天用编程代理的开发者：他让Codex通宵调试代码，给它一个能复现bug的单元测试，让它自己去插调试语句、验证假设、定位问题。醒来发现bug已经找到了。他说这是“无限的机械化自闭式坚持”。

当AI快到让你来不及思考，人类理解力就成了真正的瓶颈。这可能是个好消息，也可能不是。

openai.com/index/introducing-gpt-5-3-codex-spark/

发布于北京