claude-opus-4.5 发布啦!
这次 opus-4.5 把 Aider polyglot coding leaderboard (我实践中觉得最准确的编程benchmark) 刷到了 89.4! 终于要刷爆了!
给大家介绍下为什么,年初的DeepSeek-R1 还只能完成56.9%的问题,而这次基本能完成90%的问题了。
那么,代价是什么?当然是各位的钱包要出血了,这玩意定价一百万 token 输出 25刀..... 我昨天给大家看的那个硅基骑手测试,运行一次基本就要1M token... 直接 170块钱进去了... 真的用不起....
除此之外,各个其他测试也是SOTA, 稍后我会给大家带来视频实测!敬请期待!
#ai创造营##ai生活指南##科技先锋官#
发布于 北京
