🌍【国联民生海外】Claude Sonnet 4.6发布,复杂任务能力持续提升,AI工作流有望加速商业化!!
[玫瑰]事件:Anthropic发布 Claude Sonnet 4.6,这是迄今最强的 Sonnet 版本,在编程、计算机操作(Computer Use)、长上下文推理、智能体规划及知识工作等领域实现全面升级,并推出测试版 100 万 token 上下文窗口。定价维持与 Sonnet 4.5 相同水平($3/$15 每百万 token)。
[太阳]性能跃迁:Sonnet 4.6 在多项基准测试中全面提升,在 OfficeQA 企业文档理解测试中达到与 Opus 4.6 相当水平,显著强化对图表、PDF、表格等复杂资料的推理能力。在 Claude Code 测试中,约 70% 用户更偏好 4.6,59% 用户甚至优于 Opus 4.5,显示其在指令遵循、代码一致性及减少幻觉方面明显改善。在 Vending-Bench Arena 中,其展现出较强的长期规划与资源配置能力。
💻Computer Use 能力突破:Sonnet 4.6 在 OSWorld 基准上持续进步,并可在真实软件环境中完成跨应用操作,在复杂表格、多步骤表单及多标签协同任务上已接近人类水平。模型无需依赖专用 API,即可通过“点击+输入”操作遗留系统,显著拓展企业级自动化应用空间。
🧠观点:我们认为,尽管 Sonnet 4.6 发布后市场短期交易“大模型吞噬应用层”逻辑,导致部分软件与 AI 应用标的回调,但其本质并非替代应用,而是持续强化复杂任务执行能力,为应用层赋能。我们认为行业 Know-how 与业务壁垒仍掌握在应用厂商手中,部分 AI 应用标的存在阶段性错杀,中长期看具备场景与产品整合能力的公司将持续受益。另一方面,Sonnet 4.6 为代表的复杂任务能力持续提升,未来 AI 工作流大规模采纳有望显著推动算力消耗加速增长,持续看好对 AI硬件、云基础设施的拉动,建议关注:【NVDA】【ORCL】【LITE】【SNDK】【MU】
风险提示:AI模型技术发展不及预期;AI应用商业化进展不及预期;多模态模型不及预期
🌹行业观点更新欢迎联系国联民生海外组孔蓉/樊程安吉
发布于 广东
