OpenAI 发布的 GPT-OSS 模型引入了两种 MoE（Mixture of Experts）架构，分别拥有 120B 和 20B 参数。本文对这两个版本及六个主流开源大语言模型（14.7B 至 235B 参数，涵盖稠密与稀疏设计）进行了多维度评测，覆盖通识知识、数学推理、代码生成、多语言理解和对话能力等十个基准，揭示了以下核心发现

OpenAI 发布的 GPT-OSS 模型引入了两种 MoE（Mixture of Experts）架构，分别拥有 120B 和 20B 参数。本文对这两个版本及六个主流开源大语言模型（14.7B 至 235B 参数，涵盖稠密与稀疏设计）进行了多维度评测，覆盖通识知识、数学推理、代码生成、多语言理解和对话能力等十个基准，揭示了以下核心发现：

• 非典型规模表现：20B 版 GPT-OSS 在多个基准（如 HumanEval、MMLU）中优于 120B 版，违背传统的规模-性能正相关规律，提示 MoE 架构存在路由机制或训练配置的效率瓶颈。

• 中游整体实力：GPT-OSS 模型在当前开源生态中表现中等，Llama 4 Scout 和 DeepSeek-R1 等模型整体领先，但 GPT-OSS 在代码生成任务中表现突出，生成效率及输出简洁性优于部分更大规模模型。

• 多语言能力不足：两款 GPT-OSS 模型在中文等多语言任务上准确率不足 45%，显示通用训练策略难以满足多语种需求，需针对性优化。

• 计算资源与效率：20B 版本 GPU 内存需求仅为 120B 的五分之一，能耗降低 2.6 倍，吞吐率更高，展现了更优的成本效益比，适合资源敏感环境部署。

• 逻辑推理质量：在多解逻辑任务中，120B 模型能识别所有有效解且输出质量高，20B 模型虽只识别部分解，但生成内容更简洁，体现不同设计权衡。

• 评测方法严格，涵盖统计显著性检验、盲评协议及错误恢复，保证结果可靠且具备较高的复现性。

该研究不仅质疑了参数规模对能力提升的固有假设，也强调了架构创新与训练策略在提升性能与效率中的重要性。GPT-OSS 模型的表现为开源大模型的多样化发展和高效部署提供了宝贵经验，未来应聚焦 MoE 架构路由优化、多语言专项训练及动态评估机制。

详情阅读👉 arxiv.org/abs/2508.12461
#大语言模型# #GPT-OSS# #MixtureOfExperts# #模型评测# #代码生成# #多语言处理# #人工智能#

发布于北京