阿里那边搞了个事挺有意思——用 AI Agent 值夜班,7x24 自动运维。
说白了就是:凌晨两点服务器挂了,不用再打电话摇人了,Agent 自己上去查日志、分析错误、追溯链路,最后给你出一份诊断报告。
但我觉得真正值得关注的不是"AI 能运维"这个点,而是他们提的一个理念——Harness Engineering,用工程化手段驾驭 Agent。
什么意思呢?就是不信任 AI 的判断,但也不完全否定它。系统分了三层:语义诊断、决策规则、动作执行。Agent 给出的诊断如果置信度高,直接自动重跑;中等的话人工确认一下;低的就升级处理。
说穿了就是:让 AI 干活,但不给它签字权。
我总觉得这个思路特别值得所有做 Agent 落地的人学。现在行业里两极分化——要么觉得 Agent 万能,要么觉得 Agent 没用。其实问题不在 Agent 本身,在你怎么设计它的"权限边界"。
你给它足够的上下文和约束条件,它能干得又快又准。你啥都不管让它自己来,那就是灾难。
而且他们还有个设计挺聪明:每次诊断结果自动沉淀成案例,系统越用越聪明。这不就是运维领域的"数据飞轮"吗?
凌晨两点被叫起来排障的运维同学,你们看到这个是不是热泪盈眶了?
你们公司有类似的 Agent 落地场景吗?欢迎聊聊。
#AI##人工智能##AIAgent#
发布于 北京
