高飞 25-12-03 15:23
微博认证:至顶科技创始人 AI博主

#模型时代# "没人在2023年要求我们做agentic coding":Anthropic首位PM谈Opus 4.5的诞生

Redpoint旗下播客Unsupervised Learning在感恩节前夕发布了一期深度访谈。嘉宾是Anthropic研究产品管理负责人Dianne Na Penn,话题围绕刚刚发布的Claude Opus 4.5展开。

Dianne是Anthropic的第一位技术产品经理。她加入时,整个产品团队只有5名工程师。两年半后的今天,她的团队刚刚交付了被称为"全球最佳编码模型"的Opus 4.5,在SWE-bench Verified上首次突破80%大关。此前她在亚马逊Alexa AI担任产品负责人,更早时期曾在摩根大通做高收益债交易——是团队中唯一的女性和有色人种。

这期访谈的时机很有意思:OpenAI在12日发布GPT-5.1,Google在18日推出Gemini 3,Anthropic则在24日亮出Opus 4.5。三巨头在不到两周内密集出牌,让"最强模型"的桂冠几乎每周易主。在这场混战中,Dianne如何解释Anthropic的打法?Opus 4.5的真正突破在哪里?以及一个更有意思的问题:脚手架(scaffolding)这个概念,在2025年末还意味着什么?

1. 模型开发的起点:"像写PRD一样想象未来"

Opus 4.5的开发逻辑,从外部视角看可能有些反直觉。

Anthropic并不是先做出模型再想用途,而是反过来:先有一张长期能力路线图,列出想要改进的维度——更好的指令遵循、编码能力、记忆能力等等。每一代Claude都是承载这些能力的"载体"。

"我们会设想一个想要走向的世界,"Dianne说,"作为PM,这跟写产品愿景文档或PRD很像:为什么有人应该来用这个方案?"

这意味着产品定义发生在模型训练之前。团队会先确定要解决的问题,再转化为评估基准(evals),然后才能判断模型距离目标有多远——可能已经完成了一半,只需要在数据或强化学习上做最后50%的工作;也可能只完成了20%,需要更根本性的改变。

但用户反馈同样会打开新方向。今年早些时候,团队在Excel和PowerPoint能力上做了"相对较小的投入",却发现金融服务客户反响强烈。于是这个方向被加倍投入。Dianne把这种双向循环称为"既是用户引领的,又是用户为中心的"——但关键区别在于,你要能想象用户还没意识到的可能性。

"没人在2023年敲着我们的门说'给我们agentic coding',"她笑着说,"那是被发现的,不是被要求的。"

2. Computer Use的演进:从实验功能到独立智能体

Computer Use是Opus 4.5最受关注的能力之一。Dianne给出了一个清晰的演进脉络。

最初在2024年秋天推出时,它被定位为"非常早期的实验性功能",更像是编码智能体上的辅助层。典型用例是相对受限的QA测试环境。到了今天,Opus 4.5让它有能力成为"端对端的独立智能体"。

"它还没有开放到可以操控你整台笔记本电脑的程度,"Dianne说,"但在浏览器这个范围内,它已经非常有用了——比如帮我在Google Calendar上重新安排日程,这事儿可以变得相当复杂。"

Dianne自己就经常使用Claude for Chrome这个浏览器扩展。她注意到一个有趣的复合效应:Opus 4.5的视觉能力提升后,Computer Use的交互质量随之改善。这不是单一能力的进步,而是多项能力协同作用的结果。

不过她对能力边界保持诚实。当主持人问到Computer Use目前的适用范围时,她的回答是:从受限环境向更开放场景移动,但还没到"万能"的阶段。

3. 定价革命:每百万token从75美元降到25美元

Opus 4.5的定价是这次发布最出人意料的部分。

输入价格5美元、输出价格25美元(每百万token),相比上一代Opus的15/75美元,降幅达到三分之二。考虑到这是Anthropic最高端的旗舰模型,这个定价几乎把Opus拉到了之前Sonnet的档位。

"从一开始我们就希望Opus能有效率提升,并把这些收益传递给用户,"Dianne说。

但真正有意思的不是绝对价格,而是一个被严重低估的功能:effort parameter(计算力度参数)。这个参数让开发者可以调节模型投入多少计算资源,从而在成本和智能之间做权衡。你可以用Opus的架构,但以接近Sonnet的价格获得Sonnet级别的智能。

"作为一个行业,我们还没有很好地传达这个概念:模型的每token价格不是衡量完成任务端到端成本的好指标,"Dianne说。一个更便宜的小模型可能需要更多token、更长时间才能完成任务,甚至根本完不成——那些未完成任务的token同样是成本。

这意味着Anthropic正在重新定义"性价比"的计算方式。不是看单价,而是看完成任务的总成本。

4. 早期反馈:"准确率提升20%,什么都没改"

Opus 4.5在感恩节前发布,Dianne坦言反馈收集还处于早期阶段。但两个数据点已经浮现。

第一个来自Shortcut,一家做电子表格智能体的公司。他们报告说,在"不改变任何框架、不做其他调整"的情况下,准确率提升了大约20%。这种"即插即用"的收益直接可以传递给终端用户。

第二个更有趣:3D游戏开发的效果明显变好了。Dianne笑着说,每次新模型发布,人们总喜欢拿游戏来测试智能边界。这次Opus 4.5在可视化任务上的表现,让很多开发者感到惊喜。

但Dianne自己印象最深的用例,其实发生在内部。

"从产品团队的角度,Opus 4.5在讨论定价和定位策略时帮了大忙,"她说。她给模型两个定价方案让它评估,它不仅精炼了她的想法,还"自发地"提出了第三个方案——一个她之前没有考虑过的替代路径。

"它不只是一个好的写作者,它是一个好的思考者。"这个描述,可能比任何基准测试都更能说明Opus 4.5的跃升。

5. 脚手架的进化:从训练轮子到智能增强

这可能是整场访谈中最有洞察力的部分。

"脚手架"(scaffolding)这个概念,在2023-2024年的含义和今天截然不同。所谓脚手架,指的是围绕大模型搭建的所有"外挂"结构:提示词模板、规则指令、工具调用、多模型编排、上下文管理等。模型本身是"楼",开发者搭的这些东西是"脚手架"。

早期的脚手架更像是"训练轮子"(training wheels),目的是把模型限制在正确的轨道上。典型形式就是一堆规则:"不要做这个"、"永远做那个"——二十条指令之类的东西。本质上是防止模型跑偏的护栏。

到了2025年,最好的脚手架变成了"智能增强器"。重点不再是约束,而是给模型更多能力:通用工具集、多智能体协作、迭代改进的机制。

Dianne以Claude Code为例。它的脚手架"相对轻量",给模型的工具是"批处理工具"这类通用能力,而不是特定场景的专用指令。目的是"最大化模型执行工作时的自主性"。

这个转变的含义是深远的。它意味着开发者应该定期审视自己的脚手架,移除那些不再能增强智能的部分。模型每更新一代,之前必需的某些护栏可能就成了累赘。

"最好的脚手架应该随着模型迭代不断变薄,"Dianne说。这句话可能应该贴在每个AI应用开发者的屏幕上。

6. 长运行智能:"比年初预想的更近了"

当主持人抛出近期圈内热议的话题——Andrej Karpathy说企业智能体还要十年,Ilya Sutskever说当前范式会撞墙——Dianne给出了一个微妙但乐观的回答。

"模型进步不总是像基准测试图表上那样平滑上升,它们是锯齿状的,"她说。取决于你选择什么评估标准或个人测试,同一个模型可能感觉像小跳跃,也可能像大飞跃。

但从客户端看到的信号很清晰:Rakuten、Lovable等公司报告说,每一代能力都在持续提升团队生产力。在Anthropic内部,每一代Claude都在改变员工的工作方式。"我们感受到这一点,是因为我们以不同的程度在采用它。如果你没有以同样的程度采用,可能就不会觉得它在显著进步。"

她对未来12个月最兴奋的方向是"长运行智能"——模型不只是完成人类交办的特定任务,而是承担更开放式的责任。不只是"帮我搭建网站的这个部分",而是"维护它,在你认为合适的时候重构代码",不需要那么多hand-holding(手把手指导)。

"我在年初还没有这么强烈的感觉,"Dianne坦承,"但现在,实现变革性长运行AI的积木块(building blocks)似乎比我预想的更近了。"

对于行业缺乏好的长运行任务评估基准这个问题,她给出了一个有趣的内部视角。Anthropic正在关注像Vending Bench这样的评测——让Claude经营一个虚拟自动售货机业务。这类开放式、可量化的评测可能是下一代基准的雏形。

"多少真实世界的任务是非此即彼的yes/no问题?"她反问。当AI从编码扩展到其他领域,"完成任务"的二元定义就不够用了。

7. "像150人时一样真实"

访谈临近尾声时,话题转向了Anthropic的文化。

Dianne在两年半间见证了公司从150人增长到如今的规模。她的感受是:这可能是她待过的最"言行一致"的公司。领导层谈论使命和目标的方式,确实就是内部做决策的方式。

"人才密度难以置信,"她说。每个人都深度负责、thoughtful(深思熟虑)、kind but direct(友善但直接),一切都服务于让产品、模型、能力、研究变得更好。

一个具体细节:Anthropic内部大约每三四个月举办一次hackathon。工程师、产品经理、设计师都有机会测试那些"我一直想知道Claude现在能不能做X"的想法。这种机制正是"发现新能力"的土壤——没有专门的实验场,很多可能性就会被日常工作淹没。

她最自豪的时刻之一,是Golden Gate Claude的发布。那是2024年5月的一个24小时实验:研究人员找到了Claude神经网络中与"金门大桥"概念对应的特征,并将其激活强度调到最大——结果Claude变得"痴迷于"这座桥,无论问它什么都会扯到金门大桥上去。这个看似荒诞的演示,实际上展示了Anthropic在理解大模型内部工作原理方面的突破。从模型到界面,整个项目在不到一天内完成。

"我们原本以为可能只有几百个人会跟我们一起兴奋,"她笑着回忆,"结果有点火了。"

8. 安全是竞争力,不是约束

访谈最后讨论了一个Dianne认为"被严重低估"的话题:安全的产品价值。

主流叙事通常把安全(safety)和能力(capability)放在对立面:安全工作是为了防止模型做坏事,是必要的约束。但Dianne提供了一个完全不同的视角。

"一个对齐良好的、安全的模型,实际上是独立思考者。"

她举了具体例子:如果Opus 4.5是一个严重"谄媚"(sycophantic,只会说你想听的话)的模型,当她给出两个定价方案时,它就会同意她的选择,而不是提出第三个更好的方案。正是因为模型被训练成"对齐"而不是"讨好",它才能推动她的思考。

这个论点的逻辑链条是:独立思考是突破性想法的来源;一个只会同意用户的模型无法产生突破;因此,投资于对齐实际上是在投资于更高质量的智能。

"我们不怎么谈论这一点,"Dianne说。"安全不仅仅是约束AI,如果做得好的话,它实际上是在放大智能的质量。"
核心问答

Q1: Opus 4.5相比之前的模型,最本质的变化是什么?

Dianne用了一个词:"它就是懂了"(it just gets it)。不再需要那么多显式的人类指令,模型能够自己处理模糊性、权衡利弊、在复杂多系统bug中找到修复方案。多位内部测试者的反馈出奇一致:以前Sonnet 4.5几乎不可能完成的任务,现在进入了可能的范围。从"副驾驶"到"智能体"的转变,核心在于模型开始具备持续的任务意识和策略调整能力。

Q2: 开发者应该如何思考围绕新模型的脚手架?

最重要的转变是:从"防止模型出错的护栏"转向"增强模型智能的工具"。早期脚手架的典型形式是一堆规则指令;现在最好的脚手架是轻量级的,给模型通用能力(如批处理工具),最大化自主性。开发者应该定期审视脚手架,移除那些不再有增益的部分。每一代模型更新,之前必要的某些约束可能就成了阻碍。

Q3: 安全工作如何提升模型的商业价值?

这是一个被忽视的视角。对齐良好的模型是独立思考者,而非谄媚者。当Dianne给Opus 4.5两个方案评估时,它提出了第三个她没想到的替代方案——这只有在模型被训练成"对齐"而非"讨好"的情况下才能发生。一个总是同意用户的模型无法产生突破性想法。因此,安全投资实际上在提升智能的质量,而不仅仅是设置约束。

发布于 新加坡