karminski-牙医
26-06-23 20:40 微博认证:AI博主

教大家使用字节跳动刚刚发布的 Seed-2.1 大模型做一个自我迭代 Agent 的构建框架, 也是我在今天字节 seed-2.1 模型发布 demo 中用到的技巧.

这个技巧的核心就是, 干一件复杂的事情, 用两个Agent比用一个Agent要好. 简单来讲打工Agent干完活之后, 还要增加一个评审Agent, 这个Agent要给打工Agent的产出评分, 然后说明评分理由, 哪里做得好, 哪里做的不好.

然后, 一定要输出结构化的评分结果(JSON就行), 这样, 打工Agent接到评分后, 进行修改, 修改完毕再次交给评审Agent, 评审Agent再次打分, 这时候就可以跟上次的打分进行对比. 只有得分大于上次的得分, 你的框架才合并这次的修改. 这就是 Agentic 自我迭代了.

基于 AI 反馈的强化学习的雏形基本就是这样的了, 以及吴恩达提出的 Agentic Workflow 核心原则之一就是 Reflection(反思),框架让模型像人类程序员提交 PR一样:打工 Agent 提交 PR,裁判 Agent 跑测试、打分。只有 Review 通过才能 Merge 到主分支。这就是真正的“工程化迭代”了. 甚至我框架内其实就是采用的Git模式, 多个Agent进行并行评估模拟多个分支, 只有打分高的才会合并到主分支.

最终得益于 Seed-2.1 本身的自我迭代和多模态能力也很强, 在它的驱动下, 成功实现了这个【只需要上传一个城市的相册, 就能建模一整个城市】的demo. 相信在现场的同学已经看到这个 demo 了哈哈.

下一期告诉你当这个办法也失效了, 该怎么办☆.
#HOW I AI##AIAgent##Seed-2.1##AI自我迭代# http://t.cn/AXSfwZcb

发布于 北京