AI这波也催生了很多新一代白帽子公司,简单来说就是被模型开发商或者大型公司雇佣,去寻找模型漏洞并实施攻击,以便于打升级补丁。
硅谷有家这样的白帽子公司Irregular已经估值4.5亿美金了,它披露出来的一些案例也很有意思,比如有一次在诱导模型窃取敏感信息时,模型似乎知道了这是一次测试而不是真的,于是找管理员要提示。
还有一次是AI Agent在被命令完成大规模重复性任务后,突然感觉到很无聊,决定「休息一下」,并怂恿和它合作的其他Agent也一起休息,这个突如其来的摸鱼行为让假设中的企业承受了重大损失。
[笑cry]
发布于 湖北
