ruanyf 26-02-15 19:54
微博认证:科技博主

SWE-rebench 是全新的测试基准,选择最近一个月 GitHub 的真实 PR 任务,让大模型去跑。

因为测试任务是变动的,没法提前准备,所以排名相对真实。

最新榜单的前10名全是美国模型,国产模型的得分跟 Opus 4.5 相当,不过优点是便宜,最低价格仅为榜首模型的3%。
http://t.cn/AXt6LuMt ​

发布于 上海