Max_For_AI 26-02-06 02:54
微博认证:AI博主

哈哈哈哈!!OpenAI狙击Anthropic成功![不愧是你]

就在Claude Opus 4.6发布的5分钟后,OpenAI发布了目前最强的Coding模型:GPT-5.3-Codex!

GPT-5.3-Codex 被定义为迄今为止最强大的智能体编程模型。

最令人着迷的技术细节是:这是 OpenAI 历史上第一个深度参与自身创建过程的模型。

Codex 团队承认,他们利用该模型的早期版本,自主完成了对其后续版本的代码调试、训练监控以及部署管理。

当研究人员发现自己的工作在短短两个月内因模型自我加速而发生根本性变化时,工具与创造者的边界已经开始模糊。

从Benchmark上看,这种自我进化带来的代差是全方位的。

在衡量终端操作能力的 Terminal-Bench 2.0 测试中,它的准确率从前代的 64.0% 垂直攀升至 77.3%;
而在视觉桌面环境任务 OSWorld-Verified 中,它展现了惊人的计算机操控能力,从 38.2% 跃升至 64.7%,正在迅速逼近人类约 72% 的评分基准。此外,在 SWE-Lancer IC Diamond 评测中,它拿到了 81.4% 的高分。

值得注意的是,这些跨越式的进步是在使用更少 Token、推理速度提升 25% 的前提下实现的。

得益于与 NVIDIA 合作的 GB200 NVL72 系统,逻辑的运转变得更加廉价且高效。

然而,GPT-5.3-Codex 的野心显然不在于代码本身,它正在向全能型协作同事演变。

它不仅能处理编程任务,更在 OpenAI 2025 年发布的 GDPval 专业知识评测中表现卓越,涵盖了从撰写 PRD、进行用户调研到复杂的电子表格分析等 44 种职业任务。

它变成了一个可以互动的实时合作者,在执行长达数天的长程任务时,它会像同事一样解释自己的决策逻辑,并随时响应人类的实时反馈。

它对“未完全定义指令”的理解极其深刻,比如在构建网页时,它能自主推断商业逻辑中的最优展示方式,而不再需要人类给出精确到像素的指令。

在安全领域,它同样跨过了一个隐形的门槛。GPT-5.3-Codex 是首个在网络安全任务中被归类为“高能力”的模型,它能直接识别软件漏洞,并在 Cybersecurity CTF 挑战中达到 77.6% 的准确率。

为此,OpenAI 部署了迄今最全面的安全堆栈,并承诺投入 1000 万美元的 API 积分来资助开源软件的防御研究。

目前,该模型已正式上线 ChatGPT 订阅计划,覆盖了 App、CLI、IDE 扩展及网页端,API 接入也已在审慎开放的过程中。

我们可能正处于一个技术拐点:5.3-Codex 不再只是一个写代码的工具,而是一个正在学习操作计算机、理解现实世界逻辑并不断自我修正的通用智能体。

当模型开始诊断自己的 Bug、优化自己的 GPU 集群调度时,人类在技术全生命周期中的角色,正不可避免地从生产者转向监督者。

人类的未来去往何方呢?[哆啦A梦吃惊]

#人工智能##互联网##互联网[超话]##AI#

发布于 浙江