爱可可-爱生活 26-02-13 08:21
微博认证:AI博主 2025微博新锐新知博主

【当AI编程助手快到让你来不及思考】

OpenAI刚刚发布了GPT-5.3-Codex-Spark,一个专为实时编程设计的“小”模型。它跑在Cerebras的晶圆级芯片上,每秒能吐出1000多个token。

这块芯片本身就是个奇观:一整片晶圆做成一颗芯片,面积46255平方毫米,4万亿个晶体管,90万个AI核心。比英伟达B200多19倍晶体管、28倍算力。有人说它像餐盘那么大,这不是夸张。

速度提升不只来自芯片。OpenAI重写了整个推理栈,引入持久WebSocket连接,把客户端到服务器的往返开销砍掉80%,首个token的等待时间减半。当模型速度不再是瓶颈,工程架构就成了新战场。

有开发者用自己的“蓝狗基准测试”跑了一圈:Spark在低延迟模式下20秒完成任务,而完整版Codex要1分多钟。代价是什么?它确实有“小模型的感觉”,对AGENTS.md里的指令不够敏感,上下文管理也更粗放。

这揭示了一个正在成形的分工:快模型负责人机交互,慢模型负责深度推理。就像OpenAI说的,未来Codex会有两种模式,一边和你实时对话,一边把耗时任务扔给后台的子代理。你不必在速度和智能之间二选一。

有人已经在畅想用这种速度做什么:演讲时根据观众提问实时生成幻灯片,提到一篇论文就自动生成带截图和二维码的页面,然后无缝回到主线。每一场演讲都变成即兴表演。

也有人泼冷水:Cerebras芯片贵得离谱,一颗超过100万美元,一个机架只能装一颗,数据中心寸土寸金。而且整片晶圆做芯片,一个缺陷就可能报废整片。Cerebras声称他们能容忍缺陷并绕过它们,但规模化生产的考验才刚开始。

英伟达的护城河在松动吗?谷歌TPU在能效上步步紧逼,Cerebras在延迟上另辟蹊径。但英伟达的CUDA生态、产能合同、开发者惯性,这些软实力不是一两代芯片能撼动的。

最有意思的评论来自一位每天用编程代理的开发者:他让Codex通宵调试代码,给它一个能复现bug的单元测试,让它自己去插调试语句、验证假设、定位问题。醒来发现bug已经找到了。他说这是“无限的机械化自闭式坚持”。

当AI快到让你来不及思考,人类理解力就成了真正的瓶颈。这可能是个好消息,也可能不是。

openai.com/index/introducing-gpt-5-3-codex-spark/

发布于 北京