量子位
26-06-23 20:53 微博认证:量子位官方微博

#豆包大模型2.1##Seed2.1#

就在刚刚,又一个新版国产模型来了。

这次的主角是字节——Seed 2.1系列。【图1】

这个版本一共包含2个模型,分别是Doubao-Seed-2.1-Pro和Doubao-Seed-2.1-Turbo,并且API服务已全量上线火山方舟。

那么这个新模型到底什么水平?

火山引擎便放出了一个很直观且有feel的案例:【图2】。

视频演示的是芯片设计行业里非常严谨的RTL环节,会细节到每个寄存器和信号线在每个时钟周期里怎么流动都得说清楚。

这个工作量基本上得3-5名人类工程师花数周时间才能搞定。

而Seed 2.1 Pro围绕一个16×16 PE的Tiny NPU Tile,连续运行近18个小时,经历9轮迭代,最终完成了6个核心模块、1303行RTL代码!

再来看下榜单评分的表现。

以贴近真实终端编程环境的Terminal Bench 2.1为例,Seed 2.1 Pro已经做到了基本上能和Claude Opus 4.7持平;在科学计算代码评测SciCode上,Seed 2.1 Pro甚至超过Opus 4.7和GPT-5.5。【图3】

并且像工具调用的MCP-Atlas评测,Seed 2.1 Pro同样是超过了Opus 4.7和GPT-5.5。

在六月新鲜出炉的Agents’ Last Exam(ALE,覆盖13个行业集群、1000多项高经济价值真实任务)基准评测中,Seed 2.1 Pro已经处于当前参评模型的第一梯队水平。【图4】

还有一个非常实在的亮点,那就是价格。

因为Seed 2.1 Pro在能力跟国外头部AI做到比肩的同时,价格还仅仅是1/4(以Opus 4.6-4.8为例):【图5】

并且放眼国内玩家,Seed 2.1 Pro也是具备一定优势:

每百万Token输入价格为6元、输出价格为30元、缓存命中条件下只需要1.2元。

并且根据火山引擎总裁谭待的介绍,豆包日均Token的使用量已经突破180万亿!【图6】

那么把豆包最新模型丢到实实在在的工作环境,它的效果到底如何?

老规矩,一波实测走起~http://t.cn/AXSf4Hcr