Claude Mythos Preview 这么猛,马上想到
我们写的那些 agent harness skill,会不会有一批只是临时补丁,最后被这些更强的基础模型吃掉了……
于是赶紧去翻了今天发的 System Card。
里面除了常规能力评估,还写了很多安全相关内容:RSP、前沿合规、网络安全能力、对齐评估、model welfare,还有一部分用户体验的定性分析。
更关键的是,Anthropic 这次没有把它全面开放,只给少量合作伙伴使用。
“由于 Claude Mythos Preview 的能力大幅提升,我们决定不将其全面开放。相反,我们正将其用于一项防御性网络安全计划,并仅与有限数量的合作伙伴开展合作。”
大家可以继续安心调试 harness 了 [doge]
发布于 中国香港
