大语言模型排名变动

#模型时代# 一份适用于 Hermes + OpenClaw agent 的大语言模型 (LLM) 速查表 (04.12.26)

出处以及图片版见图一、图二

社区指出 Claude Opus 4.6 近期表现不佳，而 GLM 5.1 则异军突起，展现出了前沿级别的能力。

自上个版本以来发生了很多变化。以下是主要变动：

• GLM-5.1 刚刚证明了其前沿能力：在全球 SWE-Pro 榜单中排名第一，支持 8 小时自主执行，且输入成本低于 Opus。它成功跻身 Tier 1。
• Grok 4.20 进入 Tier 2，在所有受测模型中幻觉率最低，提供最高支持 16 个 agent 并行运行的原生多 agent API，并具有 2M 上下文窗口。
• Gemini 3.1 Pro 降至 Tier 3。其价格和多模态表现依然强劲，但新的前沿标准使其在推理能力上掉了队。
• Mistral Small 4 加入 Tier 3。仅用一个模型就替代了三个专用流程（推理、视觉、agent 编程），输入成本仅为 0.15美金/M。采用 Apache 2.0 协议。

以下是完整格局：分为 4 个梯队的 18 个模型。

Tier 1 - 前沿模型
• Claude Opus 4.6：agent 终端编程排名第一；需留意不一致性报告
• GPT-5.4：超人类的计算机使用能力，真实的规划能力。并推出了 $100/月的套餐
• GLM-5.1：全球 SWE-Pro 榜首，8 小时自主执行，MIT 协议

Tier 2 - 执行力
• MiniMax M2.7：97% 的技能遵从度，专为 agent 打造。仅提供 API，未开源权重
• Kimi K2.5：长周期稳定性，agent 集群
• Grok 4.20：市场上最低的幻觉率，原生多 agent 支持，2M 上下文
• DeepSeek V3.2：前沿的推理能力，成本仅为 1/50

Tier 3 - 均衡型
• Claude Sonnet 4.6：达到 Opus 98% 的性能，成本仅为 1/5
• GPT-5.4 mini：93.4% 的工具调用可靠性，基于 OAuth 运行
• Gemini 3.1 Pro：最具性价比的多模态模型，单次调用原生支持视频和音频
• Qwen3.6 Plus：接近前沿的编程能力，通过 OpenRouter 完全免费使用
• Llama 4 Maverick：开源权重，支持零边际成本的自托管
• Mistral Small 4：一个模型替代三个；涵盖推理、视觉、agent 编程，Apache 2.0 协议

Tier 4 - 本地 / 零成本 - 可在 32GB 或更小内存上运行
• Qwen3.5-9B：支持始终在线的潜意识循环，16GB 内存，击败了体积是其 13 倍的模型
• Qwen3.5-27B：更强的指令遵循能力，32GB 内存
• Gemma 4 31B：最佳本地推理模型，Apache 2.0 协议，可商用
• DeepSeek R1 distill：零成本下最好的思维链（CoT）能力
• GLM-4.5-Air：专为 agent 工具使用和网页浏览构建，并非通用模型的裁剪版

发布于日本