字节跳动 Seed 团队发布 Seed-OSS 系列开源大语言模型，专注长上下文、推理与 agent 任务，性能媲美主流大模型，且训练仅使用 12T tokens。• 核心优势： - 灵活思考预算控制，推理长度可调，提升推理效率与效果 - 原生支持最长 512K token 上下文，适合超长文本理解

字节跳动 Seed 团队发布 Seed-OSS 系列开源大语言模型，专注长上下文、推理与 agent 任务，性能媲美主流大模型，且训练仅使用 12T tokens。

• 核心优势：
- 灵活思考预算控制，推理长度可调，提升推理效率与效果
- 原生支持最长 512K token 上下文，适合超长文本理解
- 优化推理能力，兼顾通用性能，推理任务表现优异
- Agent 智能突出，支持工具调用与复杂问题解决
- 同时发布含合成指令数据与纯预训练模型，满足不同研究需求
- 基于 RoPE、GQA attention、RMSNorm、SwiGLU 架构设计，技术先进
- 36B 参数规模，64 层深度，155K 词汇表

• 领先指标（部分）：
- MMLU 84.9，BBH 87.7，GSM8K 90.8，HumanEval 76.8，Agent 任务 TAU1-Retail 高达 70.4
- 公开开源中多项指标达到 SOTA 或第二名水平

• 使用方便：
- 支持 Python Transformers 库，示例代码即刻上手
- 支持 4-bit/8-bit 量化，显著降低推理资源消耗
- 兼容 vLLM，支持高效分布式推理服务部署

• 设计理念：
Seed-OSS 强调推理中的自我反思与预算管理，动态调整推理流程，体现对复杂任务深度拆解的支持，真正做到“按需思考”，这对实际应用和研究探索意义深远。

了解更多👉 github.com/ByteDance-Seed/seed-oss

#大语言模型# #开源AI# #长上下文# #推理能力# #Agent智能# #人工智能#

发布于北京