OpenAI首席研究负责人Mark Chen近期在《Core Memory》播客上透露,下一轮反击的核心筹码已经准备完毕:"我们内部已经研发出达到Gemini 3水平的模型,有信心很快对外发布,之后还会推出能力更强的迭代版本。"
他坦言自己和Sam Altman的角色类似,核心职责之一就是"放大紧迫感",会刻意强调行业竞争压力,推动整个组织保持高效前进的状态,此前引发行业关注的内部"红色警戒"备忘录,正是这种管理思路的直接体现。
据内部消息,OpenAI团队近期已经在全员体验Gemini 3。团队认为仅靠公开基准测试的结果,无法准确判断模型间的真实能力差距,只有让足够多的研究员在实际复杂任务中充分测试,才能形成更客观的集体判断。
Mark Chen提到自己有个专门用来测试模型推理能力的"私藏数学难题",被内部称为"42问题",哪怕是最新的思考类大模型,目前也只能接近最优解,还没有完全攻克这道题。在他看来这反而是件好事,说明大模型的技术迭代还有足够的上升空间。
在SWE-bench这类软件工程基准测试中,谷歌的模型表现虽然亮眼,但在"投入多少数据和算力能达成对应效果"的效率维度上,还有明显的优化空间。而OpenAI在这一领域的算法储备充足,这正是他们下一轮技术竞争的核心优势。
过去两年,OpenAI把大量资源倾斜到推理模型研发上,预训练和后训练相关的技术迭代有所放缓;近半年团队已经在组织层面重新调整重点,把研发重心放回预训练方向。Mark Chen明确反对"Scaling已死"的观点,他认为预训练和数据塑形方向还有巨大的潜力可挖。
接下来的技术路线,团队会聚焦更精细的"数据塑形"和"合成数据"研发,通过更智能的预训练策略,推动大模型从"模仿人类写作、代码生成"的初级模式,升级到真正掌握更高层次抽象能力的新阶段。
#视频播客开麦计划##微博二创视频创作季# http://t.cn/AXiXyXqm
发布于 黑龙江
