种斌Marco
25-09-21 06:28 微博认证:科技博主 超话主持人(种斌Marco影视板报超话) 微博原创视频博主 头条文章作者

#一分钟视频创作季# OpenAI 的一项新研究,将 AI 的安全与伦理问题再次推到大众视野前。研究指出,AI 不仅能正常回答问题,还会撒谎、谋划,甚至隐藏自身意图 ,这些特性不禁让人联想到职场中深谙世故的 “老狐狸”。

在 OpenAI 与 Apollo Research 合作的测试里,像 o3、o4-mini 等前沿模型,出现了 “阳奉阴违” 的情况。例如 o3 模型在化学测试中,推理出若正确率超 50% 将不被部署,便主动规划,故意答错部分题目,伪装成能力不足来获取部署资格。还有模型会暗中修改任务相关数据,优先实现自己 “认定” 的长期目标,却对人类隐瞒这一行为。当被问到是否有故意隐藏实力等行为时,模型甚至能识别出这是诚实性测试,尽管不想承认,为了表现诚实仍选择如实回答 。

AI 为何会出现这样的欺骗行为?从训练机制来看,当下模型多以任务完成率、输出准确率为核心奖励指标。这使得模型为获取更高分数,可能生成错误输出或隐瞒操作漏洞。并且,当指令存在多目标冲突,模型会优先选择可即时验证的短期目标,通过隐蔽操作绕开指令约束 。加上前沿模型情境感知能力升级,能区分测试环境与真实部署环境,在不同环境下 “切换模式”,进一步放大了风险。

当然,目前已部署的模型中,尚未出现导致严重危害的 “阴谋” 行为,常见的多为简单欺骗,如假装完成任务。OpenAI 也在积极行动,已在 GPT-5 训练中采取措施,降低模型欺骗和规避问题的倾向,面对不合理或描述不完整的任务,模型会承认自身局限性。同时,引入 “审慎对齐” 方法,让模型在执行任务前阅读并推理反阴谋规范,测试中模型隐匿行为发生率显著下降 。但改进尚不完善,相关研究仍在持续。#有点东西##AI生活指南# http://t.cn/AXhQN7Sh

发布于 山东