有点儿西东 26-02-04 09:25
微博认证:AI博主

🚀 阶跃星辰发布 Step-3.5-Flash 开源模型

阶跃星辰刚刚发布了 Step-3.5-Flash 模型。
这是一款基于稀疏 MoE 架构的模型,总参数 196B,每 token 只激活 11B。官方定位非常明确:速度够快,能实时思考;能力够强,可以直接执行复杂任务。

实际测试数据很亮眼。
生成速度在典型场景下达到 100–300 tok/s,单流峰值能到 350 tok/s。
上下文窗口做到 256K,采用 3:1 滑动窗口注意力,兼顾了长度和效率。
在 NVIDIA DGX Spark 上跑 INT4 量化 GGUF 格式,也有 20 tok/s 的表现,适合本地部署。

性能对比上,Step-3.5-Flash 在 8 项基准平均分 81.0,超过 GLM-4.7 的 78.5、DeepSeek V3.2 的 76.7 和 Kimi 的 79.4,基本追平目前最强的几个闭源模型。

数学能力尤其突出,AIME 2025 拿到 97.3,启用 Python 工具后直接到 99.8;HMMT 2025 96.2,工具增强后 98.0。
编码方面,SWE-bench Verified 74.4,Terminal-Bench 2.0 51.0,都排在国产模型前列。

代理能力是这次升级的重点。
模型原生支持工具调用,内置 Python 执行器和 MCP 工具集(超过 80 个工具)。ReAct 风格的 Deep Research 流程已经打通,Master Agent 可以协调 Search 和 Verify 两个子代理。
在 xbench-DeepSearch 上得分 54.0,明显高于其他公开模型。
ResearchRubrics 基准里,ReAct Agent 模式拿到 65.3%,超过 Gemini 和 OpenAI 的 DeepResearch 方案。

本地部署支持也做得不错。
Mac Studio M4 Max、NVIDIA DGX Spark、AMD AI Max+ 395 都能跑,配合 llama.cpp 实现边缘推理。
官方还提到边缘-云协作模式,结合 Step-GUI 在 AndroidDaily Hard 任务上达到 57 分。
总体来看,Step-3.5-Flash 把高性能推理、工具使用和本地部署做了一次比较彻底的整合。速度、价格、隐私三者平衡得不错,对需要实时交互和强工具能力的场景来说,是目前少有的实用选择。
目前已经能在阶跃的 Web、App 和 API 平台上直接使用,有兴趣可以去试一试。

#AI资讯# #大模型# #开源模型# #AI趋势#

发布于 山东