GLM-5-Turbo发布_新浪新闻

我最近发现了OpenClaw的正确打开方式，必须来给大家分享一波。

其实这段时间，我观察到身边越来越多人开始养龙虾。
但大家经常会吐槽同一类问题：这玩意说得永远比做得好。

我们经常能在网上看到很多case，都把龙虾说得天花乱坠的，好像有了龙虾生产力就能翻几倍。
但实际你真的要让它干个活，大概率它做得都非常拉垮，远远达不到你的要求。

比如我最近经常也让龙虾帮我处理一些工作上的琐事，像定时抓取行业资讯、整理数据、写个小工具什么的。
刚开始是有一些Aha moment，但慢慢发现一个问题：一些需要连续操作好几步的任务，它非常容易干到一半就掉链子。

比如我让它每小时抓一次竞品动态然后发到群里，结果第二轮就开始重复抓取，完全忘了之前的指令。
或者让它搜索、分析、写文档、发消息这样串联起来的任务，往往到中间第几步就报错中断了。

问题的根源也很简单：聊天能力不等于干活能力。

龙虾任务最大的难点在于，它不是单点能力的比拼，而是一条完整工作流的执行。

通用模型在龙虾任务上表现不好，是因为它们的训练目标是尽可能广泛地理解和生成人类语言，而没有针对性地训练过这些能力。

但龙虾任务需要模型能精准理解复杂指令，能稳定调用外部工具，能在长链路任务中保持执行连续性，能理解时间维度上的要求。
这些能力如果没有专门训练，模型就很难做好。

那什么样的模型适合跑龙虾呢？
比如最近，智谱发布了一个叫GLM-5-Turbo的模型，定位就是全球首个龙虾模型，官方说这是专门针对Agent场景优化的模型。

我研究了一下它的技术路线，发现思路确实不太一样。
因为它不是在通用模型的基础上简单微调一下，而是从训练阶段就针对龙虾任务的核心需求进行专项优化。

主要强化了这几个方向：
1、工具调用能力。
模型能精准、稳定地调用各类外部工具和技能模块，在多步任务中不掉链子。

2、指令遵循能力。
对复杂、多层、长链路的指令有更强的理解和拆解能力，能精准识别目标、规划步骤。

3、定时与持续性任务。
能理解时间维度上的要求，支持定时触发、持续执行、长时间运行等场景。

4、长链路执行效率。
针对数据吞吐量大、逻辑链条长的任务，提升执行效率和响应稳定性。

换句话说，这个模型从设计之初就是奔着干活去的，不是为了聊天。

我自己上手试了一下，感受很明显。

就像我前面说的，用通用模型跑一个定时监控任务，每小时抓取一次全网资讯并总结，结果跑到第2轮就开始重复抓取。
但换成GLM-5-Turbo之后，连续跑了12次，每一轮都稳定输出，没有出过错。

还有一个多工具串联的任务，流程是：搜索、分析、写文档、发飞shu。
通用模型调工具调到第3步就报错了，任务直接中断。
GLM-5-Turbo一气呵成，飞shu消息自动发出来了。

这种体验上的差异挺大的，因为龙虾任务不是一次性的，你可能需要它每天自动跑、每小时自动跑。
如果模型不稳定，今天跑成功了明天崩了，那这个龙虾基本就没法用。

说到这，就不得不聊到一个问题，我们应该怎么判断一个模型的龙虾能力强不强？
这确实是个好问题。因为传统的模型评测基本都是针对对话、写作、推理这些任务设计的，没有专门针对龙虾场景的基准。

智谱这次发布GLM-5-Turbo的时候，同步推出了一个叫ZClawBench的评测基准，专门用来测模型在龙虾场景下的表现。

它的设计思路很有趣，它不是测模型能不能回答问题，而是测模型能不能完成真实的工作任务。

比如让模型完成一个跨部门的会议纪要整理与任务分发，或者让模型搭建一个完整的ERP系统，或者让模型每天自动抓取股票数据并生成分析报告，这些都是真实用户在用龙虾的时候会遇到的场景。

评测方式也不是简单打分，而是通过脚本验证、Agentic Judge、成对比较等多层方式，看模型到底有没有把任务完成，完成得好不好。

根据这个基准的测试结果，GLM-5-Turbo在龙虾场景中的表现比GLM-5有明显提升，在多项关键任务上整体领先其他主流模型。

说到底，龙虾代表了一种新的工作方式，因为龙虾是真的在替你干活。
你只需要告诉它目标和要求，它自己会拆解任务、调用工具、执行流程、汇报结果。

有人把这种变化总结成一句话：大模型正在从提效工具，走向企业劳动力。
以前企业用AI是为了让员工干活更快，现在企业开始尝试让AI直接干活。

当然，现在还远谈不上AI完全替代人，但那些重复性高、流程化强的工作，正在被AI快速接管。

GLM-5-Turbo这次的定位就是龙虾模型，从训练阶段就针对龙虾场景深度优化。

（题外话：智谱之前还把这个模型以Pony-Alpha-2的代号接入了AutoClaw，让用户盲测。结果显示，90%的受访者认为Pony-Alpha-2的表现优于其他国产模型。）

如果你也在养虾，如果你也遇到过模型掉链子的问题，不妨试试看这种专门为龙虾设计的模型，可能会打开新世界的大门。

发布于上海