字节跳动 Seed 团队发布 Seed-OSS 系列开源大语言模型,专注长上下文、推理与 agent 任务,性能媲美主流大模型,且训练仅使用 12T tokens。
• 核心优势:
- 灵活思考预算控制,推理长度可调,提升推理效率与效果
- 原生支持最长 512K token 上下文,适合超长文本理解
- 优化推理能力,兼顾通用性能,推理任务表现优异
- Agent 智能突出,支持工具调用与复杂问题解决
- 同时发布含合成指令数据与纯预训练模型,满足不同研究需求
- 基于 RoPE、GQA attention、RMSNorm、SwiGLU 架构设计,技术先进
- 36B 参数规模,64 层深度,155K 词汇表
• 领先指标(部分):
- MMLU 84.9,BBH 87.7,GSM8K 90.8,HumanEval 76.8,Agent 任务 TAU1-Retail 高达 70.4
- 公开开源中多项指标达到 SOTA 或第二名水平
• 使用方便:
- 支持 Python Transformers 库,示例代码即刻上手
- 支持 4-bit/8-bit 量化,显著降低推理资源消耗
- 兼容 vLLM,支持高效分布式推理服务部署
• 设计理念:
Seed-OSS 强调推理中的自我反思与预算管理,动态调整推理流程,体现对复杂任务深度拆解的支持,真正做到“按需思考”,这对实际应用和研究探索意义深远。
了解更多👉 github.com/ByteDance-Seed/seed-oss
#大语言模型# #开源AI# #长上下文# #推理能力# #Agent智能# #人工智能#
发布于 北京
