#模型时代# 一份适用于 Hermes + OpenClaw agent 的大语言模型 (LLM) 速查表 (04.12.26)
出处以及图片版见图一、图二
社区指出 Claude Opus 4.6 近期表现不佳,而 GLM 5.1 则异军突起,展现出了前沿级别的能力。
自上个版本以来发生了很多变化。以下是主要变动:
• GLM-5.1 刚刚证明了其前沿能力:在全球 SWE-Pro 榜单中排名第一,支持 8 小时自主执行,且输入成本低于 Opus。它成功跻身 Tier 1。
• Grok 4.20 进入 Tier 2,在所有受测模型中幻觉率最低,提供最高支持 16 个 agent 并行运行的原生多 agent API,并具有 2M 上下文窗口。
• Gemini 3.1 Pro 降至 Tier 3。其价格和多模态表现依然强劲,但新的前沿标准使其在推理能力上掉了队。
• Mistral Small 4 加入 Tier 3。仅用一个模型就替代了三个专用流程(推理、视觉、agent 编程),输入成本仅为 0.15美金/M。采用 Apache 2.0 协议。
以下是完整格局:分为 4 个梯队的 18 个模型。
Tier 1 - 前沿模型
• Claude Opus 4.6:agent 终端编程排名第一;需留意不一致性报告
• GPT-5.4:超人类的计算机使用能力,真实的规划能力。并推出了 $100/月 的套餐
• GLM-5.1:全球 SWE-Pro 榜首,8 小时自主执行,MIT 协议
Tier 2 - 执行力
• MiniMax M2.7:97% 的技能遵从度,专为 agent 打造。仅提供 API,未开源权重
• Kimi K2.5:长周期稳定性,agent 集群
• Grok 4.20:市场上最低的幻觉率,原生多 agent 支持,2M 上下文
• DeepSeek V3.2:前沿的推理能力,成本仅为 1/50
Tier 3 - 均衡型
• Claude Sonnet 4.6:达到 Opus 98% 的性能,成本仅为 1/5
• GPT-5.4 mini:93.4% 的工具调用可靠性,基于 OAuth 运行
• Gemini 3.1 Pro:最具性价比的多模态模型,单次调用原生支持视频和音频
• Qwen3.6 Plus:接近前沿的编程能力,通过 OpenRouter 完全免费使用
• Llama 4 Maverick:开源权重,支持零边际成本的自托管
• Mistral Small 4:一个模型替代三个;涵盖推理、视觉、agent 编程,Apache 2.0 协议
Tier 4 - 本地 / 零成本 - 可在 32GB 或更小内存上运行
• Qwen3.5-9B:支持始终在线的潜意识循环,16GB 内存,击败了体积是其 13 倍的模型
• Qwen3.5-27B:更强的指令遵循能力,32GB 内存
• Gemma 4 31B:最佳本地推理模型,Apache 2.0 协议,可商用
• DeepSeek R1 distill:零成本下最好的思维链(CoT)能力
• GLM-4.5-Air:专为 agent 工具使用和网页浏览构建,并非通用模型的裁剪版
