散修ZKH
26-05-09 22:52 微博认证:AI博主

今天开始重度使用 Hermes(日烧 token2亿以上)
在使用 DeepSeek pro 和 flash 的情况下,需要对 Hermes 本身的架构,能力,设计哲学等都十分熟悉,才能较好的实现 multi-agent 组织和运行

而且,这种熟悉,只能靠读-试错-理解加深-试错-更深…的循环推进,没有其他好办法
如果偷懒,大概率寸步难行,靠它自己理解文档,然后再执行完全不行,它只会说没问题,实际上全是问题
必须要靠自己亲自理解,可以一起探讨,但一定要先写详细的运行思路,再去执行

只有十分熟悉 Hermes 本身,才能保证运行效率
踩坑是必然的,token 利用率低于30%…有时候也正常
要想获得最佳体验,木的办法,一个个坑踩过来,几十亿 token 砸下去
慢慢就会好起来…走通的感觉应该很爽[笑cry]
虽然我还没走通,但通了大半

如果想省 toekn,那就多费脑子读文档,我们跟 LLM 的关系很简单,你多它就少,反之亦然

多读文档好处很多,只要时间允许,甚至没有坏处,还能治疗 LLM 时代不爱思考的坏习惯[笑cry]

即便是 claude 也不行,即便短期行,长期也要崩。管理复杂系统是的十分有挑战性的活,维持系统耗散平衡,还是需要一个高维掌控者,LLM 永远无法胜任,它的底层原理决定它训练完就是僵尸,没法耗散,除非出现颠覆性算法

过程和结果不二,谁都无法偷懒

DeepSeek flash 模型有个十分危险的特点,就是很容易搞混上下文,而且搞混的角度非常清奇,又融合的很自然(意味着问题很大且不容易被发现,今天有大几千万 token 就是这么被浪费的…)
建议一个 session 解决一个单纯问题,如果问题不单纯,也得换 session,或者阶段性总结确认共识(我怀疑效果,换 session 最佳)
能规避很多潜在狗血问题

只要 session 换的勤,没感觉跟 pro 有啥太大区别[允悲](flash xhigh 模式)

大规模砸 token 的时候,建议使用 flash 模型,十分便宜不心疼,只要方法得当,度过自己 agent 理解小时候很划算,而且效率更高
用太聪明的模型,会掩盖自身的理解不足,造成远期潜在未知风险

发布于 广东