karminski-牙医 26-02-03 13:04
微博认证:AI博主

一次能生成三个token? 阶跃星辰刚刚发布了Step-3.5-Flash

阶跃星辰的 Step-3.5-Flash 刚刚正式发布了! 它的技术创新很有意思, 一次推理可以生成三个token! 这个技术叫 MTP-3 - Multi-Token Prediction 多token预测, 简单说就是模型不是一次只预测下一个token, 而是一口气并行预测接下来的3个token.

这里可能有人会问: 这不是计算量翻3倍吗? 其实不是! 传统方法生成3个token需要3次完整的前向传播(每次都要跑attention和FFN), 而MTP-3只需要1次前向传播, 然后用3个预测头并行输出. 因为最耗时的Transformer主体计算只做了1次, 所以推理时反而大幅降低了计算量! 训练时成本会略微增加(要为3个位置算loss), 但推理效率的提升是值得的 - 吞吐量能飙到 100-350 tok/s, 编程任务峰值甚至350 tok/s (官方测试数据)

模型 参数量 196B 但只激活 11B, 参数激活率只有5.6%, 这个激活率是相当低的 - 要知道做到这么低的激活率同时还保证性能是很难的, 因为激活率越低意味着每次推理用的参数越少, 容易导致表达能力不足; 但激活率太高又失去了 MoE 的效率优势. 这就需要在专家划分、路由策略、负载均衡等方面做大量优化, 才能让少量激活的专家也能干好活. 另外模型还有 256K 上下文, 目前已经是 Apache 2.0 协议开源了.

另外, 模型为了提速还采用了 3:1 滑动窗口注意力 - 每 3 层滑动窗口注意力配 1 层全注意力, 这样在 256K 长上下文下既保证性能又大幅降低计算开销. 然后 Sigmoid 路由 + 3.0 缩放因子实现动态专家负载均衡, 能让专家选择更智能一些.

推理成本方面真的是降维打击: 在 128K 上下文下, 解码成本仅为 DeepSeek V3 的 1/6, Kimi K2 的 1/19! 这意味着同样的硬件能跑更多任务, 或者用更便宜的硬件就能部署.

得益于可扩展的 RL 框架, Agent 能力也很能打. 支持长程推理链和工具调用, 在复杂多步骤任务中保持稳定表现. 关键是这套 RL 框架还能持续自我改进, 越用越强.

跑分上来看, AIME 2025 数学推理 97.3(这个还好, AIME 现在普遍刷爆); SWE-bench Verified 软件工程任务 74.4% (这个很高哦?); Agent 能力方面 τ²-Bench 88.2 (这个也相当高).

稍后为大家带来详细测试~

#HOW I AI#

发布于 美国