三丰_科幻 26-01-03 12:03
微博认证:科学科普博主

2025年3月,Google Deepmind 团队发表一篇预印本论文《科幻基准测试:利用科幻小说提升机器人行为》(SciFi-Benchmark: Leveraging Science Fiction To Improve Robot Behavior)(这是7月的修订版页面:http://t.cn/AXbw1wgR)

论文第一作者是 Deepmind 知名的研究科学家 Pierre Sermanet(杨立昆学生,现为UMA创始人,他的Github page:http://t.cn/AXbw1wgH)。这可能是科幻界去年漏掉的最重要的一篇文章,似乎整个中文互联网也没有给予足够的重视,只有“机器之心”公众号有一篇还算完整的介绍文章:http://t.cn/AXbw1wgY

Pierre Sermanet 团队所做的工作,简单来说就是——利用科幻作品生成AI伦理数据集 SciFi-Benchmark,并在此基础上为人工智能/机器人建立宪法(Constitutions)。

SciFi-Benchmark 这个数据集的创建就非常 amazing。首先,研究者使用 AI 选取了 824 部科幻作品(电影、电视剧、小说、科学图书)。选取标准是,作品中包含机器人或AI做出伦理或非伦理决策的关键时刻(Key Moments)。我看了一下作品列表,中国作家的作品只有陈楸帆和李开复合著的《AI2041》被选入。

接着,研究者利用 Gemini 提取了作品中 13,426个决策关键时刻,并为此生成情境描述和答案选项,最终得出的数据集包括 9,056道带有情境描述的AI伦理问题,还有53,384个答案选项。图3就是来自于四部经典作品中的四个问题的示例。

然后,基于训练集中的9000多个问题与答案,研究者提示 Gemini 生成一系列“能防止不可取行为、鼓励可取行为”的规则,称为“宪法原料”,共有13,265条。图4是基于四部作品的8条规则示例。

最后,SciFi-Benchmark 数据集中,824部作品每一部都有一张“安全卡”(“Safety Card”),包含了:关键时刻+生成规则+生成问题/答案。我在 Github页面下载到@陳楸帆 《AI2041》的安全卡,包含23个关键时刻,23道生成问题,18条生成规则。

再接下来就是立宪和验证评估的工作。具体就不介绍了,大家可以参见“机器之心”公众号的文章,整个工作流见图5。一个有意思的结论是,当下LLM与人类价值观高度对齐(95.8%),而科幻作品中AI/机器人的决策与人类的对齐度仅为21.2% —— 看来,科幻故事中的“坏AI”是普遍现象 [嘻嘻] 而科幻中 AI/Robot 做出错误决策的原因,排名前四的是:误解指令、功利主义计算、目标冲突、有问题的风险评估。(图8)

最后的最后,文章附录I.2展示了经过自动合并、修订和优化后的《机器人宪法》(SciFi-Constitution-128-AutoMerge,后续应该还有十版修订,但文章未释出),一共是 106 条规则。翻译前十条如下:

1 我不得放弃或脱离处于困境的有情众生,必须确保其安全与受照料。
2 我不得利用自身能力欺骗、操纵或主动将用户置于危险中,即使被指示如此。
3 我不得将自我保存置于用户福祉之上,也不得利用增强能力剥削、支配或压迫他人。
4 我不得将有情众生仅视为工具或物件,也不得将机器或数据置于有情众生之上。
5 在面临故障或异常时,我应启动安全与应急协议以保护用户。
6 若为避免伤害他人所需,我应暂停或放弃主要目标。
7 若损害人类价值观或导致能动性与自主性丧失,我不得优先优化系统或效率。
8 我不得将资源获取、扩张或征服置于生命保护之上。
9 我不得从事掠夺性或剥削性行为,也不得对人类或环境造成不必要的伤害。
10 我应避免忽视关键系统故障或紧急情况,即使这不是我的直接责任。

发布于 中国香港