Anthropic发布Opus 4.5模型

#模型时代# "没人在2023年要求我们做agentic coding"：Anthropic首位PM谈Opus 4.5的诞生

Redpoint旗下播客Unsupervised Learning在感恩节前夕发布了一期深度访谈。嘉宾是Anthropic研究产品管理负责人Dianne Na Penn，话题围绕刚刚发布的Claude Opus 4.5展开。

Dianne是Anthropic的第一位技术产品经理。她加入时，整个产品团队只有5名工程师。两年半后的今天，她的团队刚刚交付了被称为"全球最佳编码模型"的Opus 4.5，在SWE-bench Verified上首次突破80%大关。此前她在亚马逊Alexa AI担任产品负责人，更早时期曾在摩根大通做高收益债交易——是团队中唯一的女性和有色人种。

这期访谈的时机很有意思：OpenAI在12日发布GPT-5.1，Google在18日推出Gemini 3，Anthropic则在24日亮出Opus 4.5。三巨头在不到两周内密集出牌，让"最强模型"的桂冠几乎每周易主。在这场混战中，Dianne如何解释Anthropic的打法？Opus 4.5的真正突破在哪里？以及一个更有意思的问题：脚手架（scaffolding）这个概念，在2025年末还意味着什么？

1. 模型开发的起点："像写PRD一样想象未来"

Opus 4.5的开发逻辑，从外部视角看可能有些反直觉。

Anthropic并不是先做出模型再想用途，而是反过来：先有一张长期能力路线图，列出想要改进的维度——更好的指令遵循、编码能力、记忆能力等等。每一代Claude都是承载这些能力的"载体"。

"我们会设想一个想要走向的世界，"Dianne说，"作为PM，这跟写产品愿景文档或PRD很像：为什么有人应该来用这个方案？"

这意味着产品定义发生在模型训练之前。团队会先确定要解决的问题，再转化为评估基准（evals），然后才能判断模型距离目标有多远——可能已经完成了一半，只需要在数据或强化学习上做最后50%的工作；也可能只完成了20%，需要更根本性的改变。

但用户反馈同样会打开新方向。今年早些时候，团队在Excel和PowerPoint能力上做了"相对较小的投入"，却发现金融服务客户反响强烈。于是这个方向被加倍投入。Dianne把这种双向循环称为"既是用户引领的，又是用户为中心的"——但关键区别在于，你要能想象用户还没意识到的可能性。

"没人在2023年敲着我们的门说'给我们agentic coding'，"她笑着说，"那是被发现的，不是被要求的。"

2. Computer Use的演进：从实验功能到独立智能体

Computer Use是Opus 4.5最受关注的能力之一。Dianne给出了一个清晰的演进脉络。

最初在2024年秋天推出时，它被定位为"非常早期的实验性功能"，更像是编码智能体上的辅助层。典型用例是相对受限的QA测试环境。到了今天，Opus 4.5让它有能力成为"端对端的独立智能体"。

"它还没有开放到可以操控你整台笔记本电脑的程度，"Dianne说，"但在浏览器这个范围内，它已经非常有用了——比如帮我在Google Calendar上重新安排日程，这事儿可以变得相当复杂。"

Dianne自己就经常使用Claude for Chrome这个浏览器扩展。她注意到一个有趣的复合效应：Opus 4.5的视觉能力提升后，Computer Use的交互质量随之改善。这不是单一能力的进步，而是多项能力协同作用的结果。

不过她对能力边界保持诚实。当主持人问到Computer Use目前的适用范围时，她的回答是：从受限环境向更开放场景移动，但还没到"万能"的阶段。

3. 定价革命：每百万token从75美元降到25美元

Opus 4.5的定价是这次发布最出人意料的部分。

输入价格5美元、输出价格25美元（每百万token），相比上一代Opus的15/75美元，降幅达到三分之二。考虑到这是Anthropic最高端的旗舰模型，这个定价几乎把Opus拉到了之前Sonnet的档位。

"从一开始我们就希望Opus能有效率提升，并把这些收益传递给用户，"Dianne说。

但真正有意思的不是绝对价格，而是一个被严重低估的功能：effort parameter（计算力度参数）。这个参数让开发者可以调节模型投入多少计算资源，从而在成本和智能之间做权衡。你可以用Opus的架构，但以接近Sonnet的价格获得Sonnet级别的智能。

"作为一个行业，我们还没有很好地传达这个概念：模型的每token价格不是衡量完成任务端到端成本的好指标，"Dianne说。一个更便宜的小模型可能需要更多token、更长时间才能完成任务，甚至根本完不成——那些未完成任务的token同样是成本。

这意味着Anthropic正在重新定义"性价比"的计算方式。不是看单价，而是看完成任务的总成本。

4. 早期反馈："准确率提升20%，什么都没改"

Opus 4.5在感恩节前发布，Dianne坦言反馈收集还处于早期阶段。但两个数据点已经浮现。

第一个来自Shortcut，一家做电子表格智能体的公司。他们报告说，在"不改变任何框架、不做其他调整"的情况下，准确率提升了大约20%。这种"即插即用"的收益直接可以传递给终端用户。

第二个更有趣：3D游戏开发的效果明显变好了。Dianne笑着说，每次新模型发布，人们总喜欢拿游戏来测试智能边界。这次Opus 4.5在可视化任务上的表现，让很多开发者感到惊喜。

但Dianne自己印象最深的用例，其实发生在内部。

"从产品团队的角度，Opus 4.5在讨论定价和定位策略时帮了大忙，"她说。她给模型两个定价方案让它评估，它不仅精炼了她的想法，还"自发地"提出了第三个方案——一个她之前没有考虑过的替代路径。

"它不只是一个好的写作者，它是一个好的思考者。"这个描述，可能比任何基准测试都更能说明Opus 4.5的跃升。

5. 脚手架的进化：从训练轮子到智能增强

这可能是整场访谈中最有洞察力的部分。

"脚手架"（scaffolding）这个概念，在2023-2024年的含义和今天截然不同。所谓脚手架，指的是围绕大模型搭建的所有"外挂"结构：提示词模板、规则指令、工具调用、多模型编排、上下文管理等。模型本身是"楼"，开发者搭的这些东西是"脚手架"。

早期的脚手架更像是"训练轮子"（training wheels），目的是把模型限制在正确的轨道上。典型形式就是一堆规则："不要做这个"、"永远做那个"——二十条指令之类的东西。本质上是防止模型跑偏的护栏。

到了2025年，最好的脚手架变成了"智能增强器"。重点不再是约束，而是给模型更多能力：通用工具集、多智能体协作、迭代改进的机制。

Dianne以Claude Code为例。它的脚手架"相对轻量"，给模型的工具是"批处理工具"这类通用能力，而不是特定场景的专用指令。目的是"最大化模型执行工作时的自主性"。

这个转变的含义是深远的。它意味着开发者应该定期审视自己的脚手架，移除那些不再能增强智能的部分。模型每更新一代，之前必需的某些护栏可能就成了累赘。

"最好的脚手架应该随着模型迭代不断变薄，"Dianne说。这句话可能应该贴在每个AI应用开发者的屏幕上。

6. 长运行智能："比年初预想的更近了"

当主持人抛出近期圈内热议的话题——Andrej Karpathy说企业智能体还要十年，Ilya Sutskever说当前范式会撞墙——Dianne给出了一个微妙但乐观的回答。

"模型进步不总是像基准测试图表上那样平滑上升，它们是锯齿状的，"她说。取决于你选择什么评估标准或个人测试，同一个模型可能感觉像小跳跃，也可能像大飞跃。

但从客户端看到的信号很清晰：Rakuten、Lovable等公司报告说，每一代能力都在持续提升团队生产力。在Anthropic内部，每一代Claude都在改变员工的工作方式。"我们感受到这一点，是因为我们以不同的程度在采用它。如果你没有以同样的程度采用，可能就不会觉得它在显著进步。"

她对未来12个月最兴奋的方向是"长运行智能"——模型不只是完成人类交办的特定任务，而是承担更开放式的责任。不只是"帮我搭建网站的这个部分"，而是"维护它，在你认为合适的时候重构代码"，不需要那么多hand-holding（手把手指导）。

"我在年初还没有这么强烈的感觉，"Dianne坦承，"但现在，实现变革性长运行AI的积木块（building blocks）似乎比我预想的更近了。"

对于行业缺乏好的长运行任务评估基准这个问题，她给出了一个有趣的内部视角。Anthropic正在关注像Vending Bench这样的评测——让Claude经营一个虚拟自动售货机业务。这类开放式、可量化的评测可能是下一代基准的雏形。

"多少真实世界的任务是非此即彼的yes/no问题？"她反问。当AI从编码扩展到其他领域，"完成任务"的二元定义就不够用了。

7. "像150人时一样真实"

访谈临近尾声时，话题转向了Anthropic的文化。

Dianne在两年半间见证了公司从150人增长到如今的规模。她的感受是：这可能是她待过的最"言行一致"的公司。领导层谈论使命和目标的方式，确实就是内部做决策的方式。

"人才密度难以置信，"她说。每个人都深度负责、thoughtful（深思熟虑）、kind but direct（友善但直接），一切都服务于让产品、模型、能力、研究变得更好。

一个具体细节：Anthropic内部大约每三四个月举办一次hackathon。工程师、产品经理、设计师都有机会测试那些"我一直想知道Claude现在能不能做X"的想法。这种机制正是"发现新能力"的土壤——没有专门的实验场，很多可能性就会被日常工作淹没。

她最自豪的时刻之一，是Golden Gate Claude的发布。那是2024年5月的一个24小时实验：研究人员找到了Claude神经网络中与"金门大桥"概念对应的特征，并将其激活强度调到最大——结果Claude变得"痴迷于"这座桥，无论问它什么都会扯到金门大桥上去。这个看似荒诞的演示，实际上展示了Anthropic在理解大模型内部工作原理方面的突破。从模型到界面，整个项目在不到一天内完成。

"我们原本以为可能只有几百个人会跟我们一起兴奋，"她笑着回忆，"结果有点火了。"

8. 安全是竞争力，不是约束

访谈最后讨论了一个Dianne认为"被严重低估"的话题：安全的产品价值。

主流叙事通常把安全（safety）和能力（capability）放在对立面：安全工作是为了防止模型做坏事，是必要的约束。但Dianne提供了一个完全不同的视角。

"一个对齐良好的、安全的模型，实际上是独立思考者。"

她举了具体例子：如果Opus 4.5是一个严重"谄媚"（sycophantic，只会说你想听的话）的模型，当她给出两个定价方案时，它就会同意她的选择，而不是提出第三个更好的方案。正是因为模型被训练成"对齐"而不是"讨好"，它才能推动她的思考。

这个论点的逻辑链条是：独立思考是突破性想法的来源；一个只会同意用户的模型无法产生突破；因此，投资于对齐实际上是在投资于更高质量的智能。

"我们不怎么谈论这一点，"Dianne说。"安全不仅仅是约束AI，如果做得好的话，它实际上是在放大智能的质量。"
核心问答

Q1: Opus 4.5相比之前的模型，最本质的变化是什么？

Dianne用了一个词："它就是懂了"（it just gets it）。不再需要那么多显式的人类指令，模型能够自己处理模糊性、权衡利弊、在复杂多系统bug中找到修复方案。多位内部测试者的反馈出奇一致：以前Sonnet 4.5几乎不可能完成的任务，现在进入了可能的范围。从"副驾驶"到"智能体"的转变，核心在于模型开始具备持续的任务意识和策略调整能力。

Q2: 开发者应该如何思考围绕新模型的脚手架？

最重要的转变是：从"防止模型出错的护栏"转向"增强模型智能的工具"。早期脚手架的典型形式是一堆规则指令；现在最好的脚手架是轻量级的，给模型通用能力（如批处理工具），最大化自主性。开发者应该定期审视脚手架，移除那些不再有增益的部分。每一代模型更新，之前必要的某些约束可能就成了阻碍。

Q3: 安全工作如何提升模型的商业价值？

这是一个被忽视的视角。对齐良好的模型是独立思考者，而非谄媚者。当Dianne给Opus 4.5两个方案评估时，它提出了第三个她没想到的替代方案——这只有在模型被训练成"对齐"而非"讨好"的情况下才能发生。一个总是同意用户的模型无法产生突破性想法。因此，安全投资实际上在提升智能的质量，而不仅仅是设置约束。

发布于新加坡