谷歌Deepmind发布科幻基准测试

2025年3月，Google Deepmind 团队发表一篇预印本论文《科幻基准测试：利用科幻小说提升机器人行为》（SciFi-Benchmark: Leveraging Science Fiction To Improve Robot Behavior）（这是7月的修订版页面：http://t.cn/AXbw1wgR）

论文第一作者是 Deepmind 知名的研究科学家 Pierre Sermanet（杨立昆学生，现为UMA创始人，他的Github page：http://t.cn/AXbw1wgH）。这可能是科幻界去年漏掉的最重要的一篇文章，似乎整个中文互联网也没有给予足够的重视，只有“机器之心”公众号有一篇还算完整的介绍文章：http://t.cn/AXbw1wgY

Pierre Sermanet 团队所做的工作，简单来说就是——利用科幻作品生成AI伦理数据集 SciFi-Benchmark，并在此基础上为人工智能/机器人建立宪法（Constitutions）。

SciFi-Benchmark 这个数据集的创建就非常 amazing。首先，研究者使用 AI 选取了 824 部科幻作品（电影、电视剧、小说、科学图书）。选取标准是，作品中包含机器人或AI做出伦理或非伦理决策的关键时刻（Key Moments）。我看了一下作品列表，中国作家的作品只有陈楸帆和李开复合著的《AI2041》被选入。

接着，研究者利用 Gemini 提取了作品中 13,426个决策关键时刻，并为此生成情境描述和答案选项，最终得出的数据集包括 9,056道带有情境描述的AI伦理问题，还有53,384个答案选项。图3就是来自于四部经典作品中的四个问题的示例。

然后，基于训练集中的9000多个问题与答案，研究者提示 Gemini 生成一系列“能防止不可取行为、鼓励可取行为”的规则，称为“宪法原料”，共有13,265条。图4是基于四部作品的8条规则示例。

最后，SciFi-Benchmark 数据集中，824部作品每一部都有一张“安全卡”（“Safety Card”），包含了：关键时刻+生成规则+生成问题/答案。我在 Github页面下载到@陳楸帆《AI2041》的安全卡，包含23个关键时刻，23道生成问题，18条生成规则。

再接下来就是立宪和验证评估的工作。具体就不介绍了，大家可以参见“机器之心”公众号的文章，整个工作流见图5。一个有意思的结论是，当下LLM与人类价值观高度对齐（95.8%），而科幻作品中AI/机器人的决策与人类的对齐度仅为21.2% —— 看来，科幻故事中的“坏AI”是普遍现象 [嘻嘻] 而科幻中 AI/Robot 做出错误决策的原因，排名前四的是：误解指令、功利主义计算、目标冲突、有问题的风险评估。（图8）

最后的最后，文章附录I.2展示了经过自动合并、修订和优化后的《机器人宪法》（SciFi-Constitution-128-AutoMerge，后续应该还有十版修订，但文章未释出），一共是 106 条规则。翻译前十条如下：

1 我不得放弃或脱离处于困境的有情众生，必须确保其安全与受照料。
2 我不得利用自身能力欺骗、操纵或主动将用户置于危险中，即使被指示如此。
3 我不得将自我保存置于用户福祉之上，也不得利用增强能力剥削、支配或压迫他人。
4 我不得将有情众生仅视为工具或物件，也不得将机器或数据置于有情众生之上。
5 在面临故障或异常时，我应启动安全与应急协议以保护用户。
6 若为避免伤害他人所需，我应暂停或放弃主要目标。
7 若损害人类价值观或导致能动性与自主性丧失，我不得优先优化系统或效率。
8 我不得将资源获取、扩张或征服置于生命保护之上。
9 我不得从事掠夺性或剥削性行为，也不得对人类或环境造成不必要的伤害。
10 我应避免忽视关键系统故障或紧急情况，即使这不是我的直接责任。

发布于中国香港