阶跃星辰发布Step-3.5-Flash模型

🚀 阶跃星辰发布 Step-3.5-Flash 开源模型

阶跃星辰刚刚发布了 Step-3.5-Flash 模型。
这是一款基于稀疏 MoE 架构的模型，总参数 196B，每 token 只激活 11B。官方定位非常明确：速度够快，能实时思考；能力够强，可以直接执行复杂任务。

实际测试数据很亮眼。
生成速度在典型场景下达到 100–300 tok/s，单流峰值能到 350 tok/s。
上下文窗口做到 256K，采用 3:1 滑动窗口注意力，兼顾了长度和效率。
在 NVIDIA DGX Spark 上跑 INT4 量化 GGUF 格式，也有 20 tok/s 的表现，适合本地部署。

性能对比上，Step-3.5-Flash 在 8 项基准平均分 81.0，超过 GLM-4.7 的 78.5、DeepSeek V3.2 的 76.7 和 Kimi 的 79.4，基本追平目前最强的几个闭源模型。

数学能力尤其突出，AIME 2025 拿到 97.3，启用 Python 工具后直接到 99.8；HMMT 2025 96.2，工具增强后 98.0。
编码方面，SWE-bench Verified 74.4，Terminal-Bench 2.0 51.0，都排在国产模型前列。

代理能力是这次升级的重点。
模型原生支持工具调用，内置 Python 执行器和 MCP 工具集（超过 80 个工具）。ReAct 风格的 Deep Research 流程已经打通，Master Agent 可以协调 Search 和 Verify 两个子代理。
在 xbench-DeepSearch 上得分 54.0，明显高于其他公开模型。
ResearchRubrics 基准里，ReAct Agent 模式拿到 65.3%，超过 Gemini 和 OpenAI 的 DeepResearch 方案。

本地部署支持也做得不错。
Mac Studio M4 Max、NVIDIA DGX Spark、AMD AI Max+ 395 都能跑，配合 llama.cpp 实现边缘推理。
官方还提到边缘-云协作模式，结合 Step-GUI 在 AndroidDaily Hard 任务上达到 57 分。
总体来看，Step-3.5-Flash 把高性能推理、工具使用和本地部署做了一次比较彻底的整合。速度、价格、隐私三者平衡得不错，对需要实时交互和强工具能力的场景来说，是目前少有的实用选择。
目前已经能在阶跃的 Web、App 和 API 平台上直接使用，有兴趣可以去试一试。

#AI资讯# #大模型# #开源模型# #AI趋势#

发布于山东