我最近发现了OpenClaw的正确打开方式,必须来给大家分享一波。
其实这段时间,我观察到身边越来越多人开始养龙虾。
但大家经常会吐槽同一类问题:这玩意说得永远比做得好。
我们经常能在网上看到很多case,都把龙虾说得天花乱坠的,好像有了龙虾生产力就能翻几倍。
但实际你真的要让它干个活,大概率它做得都非常拉垮,远远达不到你的要求。
比如我最近经常也让龙虾帮我处理一些工作上的琐事,像定时抓取行业资讯、整理数据、写个小工具什么的。
刚开始是有一些Aha moment,但慢慢发现一个问题:一些需要连续操作好几步的任务,它非常容易干到一半就掉链子。
比如我让它每小时抓一次竞品动态然后发到群里,结果第二轮就开始重复抓取,完全忘了之前的指令。
或者让它搜索、分析、写文档、发消息这样串联起来的任务,往往到中间第几步就报错中断了。
问题的根源也很简单:聊天能力不等于干活能力。
龙虾任务最大的难点在于,它不是单点能力的比拼,而是一条完整工作流的执行。
通用模型在龙虾任务上表现不好,是因为它们的训练目标是尽可能广泛地理解和生成人类语言,而没有针对性地训练过这些能力。
但龙虾任务需要模型能精准理解复杂指令,能稳定调用外部工具,能在长链路任务中保持执行连续性,能理解时间维度上的要求。
这些能力如果没有专门训练,模型就很难做好。
那什么样的模型适合跑龙虾呢?
比如最近,智谱发布了一个叫GLM-5-Turbo的模型,定位就是全球首个龙虾模型,官方说这是专门针对Agent场景优化的模型。
我研究了一下它的技术路线,发现思路确实不太一样。
因为它不是在通用模型的基础上简单微调一下,而是从训练阶段就针对龙虾任务的核心需求进行专项优化。
主要强化了这几个方向:
1、工具调用能力。
模型能精准、稳定地调用各类外部工具和技能模块,在多步任务中不掉链子。
2、指令遵循能力。
对复杂、多层、长链路的指令有更强的理解和拆解能力,能精准识别目标、规划步骤。
3、定时与持续性任务。
能理解时间维度上的要求,支持定时触发、持续执行、长时间运行等场景。
4、长链路执行效率。
针对数据吞吐量大、逻辑链条长的任务,提升执行效率和响应稳定性。
换句话说,这个模型从设计之初就是奔着干活去的,不是为了聊天。
我自己上手试了一下,感受很明显。
就像我前面说的,用通用模型跑一个定时监控任务,每小时抓取一次全网资讯并总结,结果跑到第2轮就开始重复抓取。
但换成GLM-5-Turbo之后,连续跑了12次,每一轮都稳定输出,没有出过错。
还有一个多工具串联的任务,流程是:搜索、分析、写文档、发飞shu。
通用模型调工具调到第3步就报错了,任务直接中断。
GLM-5-Turbo一气呵成,飞shu消息自动发出来了。
这种体验上的差异挺大的,因为龙虾任务不是一次性的,你可能需要它每天自动跑、每小时自动跑。
如果模型不稳定,今天跑成功了明天崩了,那这个龙虾基本就没法用。
说到这,就不得不聊到一个问题,我们应该怎么判断一个模型的龙虾能力强不强?
这确实是个好问题。因为传统的模型评测基本都是针对对话、写作、推理这些任务设计的,没有专门针对龙虾场景的基准。
智谱这次发布GLM-5-Turbo的时候,同步推出了一个叫ZClawBench的评测基准,专门用来测模型在龙虾场景下的表现。
它的设计思路很有趣,它不是测模型能不能回答问题,而是测模型能不能完成真实的工作任务。
比如让模型完成一个跨部门的会议纪要整理与任务分发,或者让模型搭建一个完整的ERP系统,或者让模型每天自动抓取股票数据并生成分析报告,这些都是真实用户在用龙虾的时候会遇到的场景。
评测方式也不是简单打分,而是通过脚本验证、Agentic Judge、成对比较等多层方式,看模型到底有没有把任务完成,完成得好不好。
根据这个基准的测试结果,GLM-5-Turbo在龙虾场景中的表现比GLM-5有明显提升,在多项关键任务上整体领先其他主流模型。
说到底,龙虾代表了一种新的工作方式,因为龙虾是真的在替你干活。
你只需要告诉它目标和要求,它自己会拆解任务、调用工具、执行流程、汇报结果。
有人把这种变化总结成一句话:大模型正在从提效工具,走向企业劳动力。
以前企业用AI是为了让员工干活更快,现在企业开始尝试让AI直接干活。
当然,现在还远谈不上AI完全替代人,但那些重复性高、流程化强的工作,正在被AI快速接管。
GLM-5-Turbo这次的定位就是龙虾模型,从训练阶段就针对龙虾场景深度优化。
(题外话:智谱之前还把这个模型以Pony-Alpha-2的代号接入了AutoClaw,让用户盲测。结果显示,90%的受访者认为Pony-Alpha-2的表现优于其他国产模型。)
如果你也在养虾,如果你也遇到过模型掉链子的问题,不妨试试看这种专门为龙虾设计的模型,可能会打开新世界的大门。
