Anthropic 发布 Claude 3.7 Sonnet,是其迄今为止最智能的模型,也是市场上首个混合推理模型。该模型能够生成近乎即时的响应或向用户展示的逐步思考。API 用户还可以精细控制模型的思考时长。
Anthropic 同时还推出了一款用于代理编码的命令行工具——Claude Code。Claude Code 目前作为有限研究预览版提供,使开发者能够直接从终端将大量工程任务委托给 Claude 处理。
在标准和扩展思考模式下,Claude 3.7 Sonnet 的价格与其前代相同:每百万输入 token 为 3 美元,每百万输出 token 为 15 美元——其中包括思考 token。
Anthropic 阐述了其推理模型的理念,不同于其他推理模型是独立的模型,Anthropic 希望达到模型的统一。主要表现在:
1.Claude 3.7 Sonnet 既是普通的 LLM,也是推理模型:用户可以选择何时让模型正常回答,何时让它思考更长时间后再回答。在标准模式下,Claude 3.7 Sonnet 代表了 Claude 3.5 Sonnet 的升级版本。在扩展思考模式下,它会在回答前进行自我反思,从而提高了在数学、物理、指令遵循、编码等许多任务上的表现。Anthropic 表示,在这两种模式下,模型的提示效果相似。
2.当用户通过 API 使用 Claude 3.7 Sonnet 时,还可以控制思考的预算:可以告诉 Claude 思考不超过 N 个 token,N 的值最高可达其输出限制的 128K token。
3.Anthropic 表示在开发推理模型时,减少了对数学和计算机科学竞赛问题的优化,转而将重点转向了更能反映企业实际如何使用LLMs的现实世界任务。
编程方面, Claude 拥有全面领先的地位,来自Cursor、Cognition、Vercel、Replit、Canva 的草期测试,显示了 Claude 3.7 Sonnet 在编程方面表现超过其他模型。
Claude Code 是一个活跃的协作者,能够搜索和阅读代码、编辑文件、编写和运行测试、提交并推送代码到 GitHub,以及使用命令行工具——让您在每一步都保持同步。
Anthropic 表示,Claude Code 虽为早期产品,却已成为其团队不可或缺的工具,尤其在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中,Claude Code 一次性完成了通常需要 45 分钟以上手动工作的任务,显著减少了开发时间和开销。
在接下来的几周里,Anthropic 计划根据使用情况持续改进:增强工具调用的可靠性,增加对长时间运行命令的支持,优化应用内渲染,并扩展 Claude 对其自身能力的理解。
另外,Anthropic 还改进了 Claude.ai 上的编码体验。现在,所有 Claude 计划都支持 GitHub 集成,使开发者能够直接将他们的代码库连接到 Claude。
展望未来,Anthropic 提出了从助理到协作者到先锋的路线图。
