今天我在MIT technology review上看到一个非常有趣的故事[笑cry]。1954年斯金纳做了一系列基于鸽子的强化学习，这些实验，大家都耳熟能详：给鸽子食物当奖励，鸽子就能学会各种分类任务---后来这种强化学习机制，为我们现在的人工智能和大模型创造了坚实的基础。但是斯金纳是怎么得到这一大笔科

今天我在MIT technology review上看到一个非常有趣的故事[笑cry]。

1954年斯金纳做了一系列基于鸽子的强化学习，这些实验，大家都耳熟能详：

给鸽子食物当奖励，鸽子就能学会各种分类任务---后来这种强化学习机制，为我们现在的人工智能和大模型创造了坚实的基础。

但是斯金纳是怎么得到这一大笔科研经费的，从来没有人提及[doge]，这个故事里就讲到了。

斯金纳有一次坐火车，窗边有一排鸽子飞过，他突然惊喜地发现，鸽子具有很强的追踪能力。【说起来，这并不奇怪，很多民族都把鸽子当信鸽】。

但那个时候的导弹，没有很强的追踪系统，没法追踪到导弹目标[允悲]。

斯金纳就想，那我可以训鸽子来引导导弹啊[捂嘴哭]。

于是，他把导弹前端做了一个小小的舱室，里面可以放一只鸽子。（见图1）。

舱室里面，他训练鸽子去盯着成像图，用嘴去啄图像里的目标，再由鸽子啄的地方的坐标来做导弹guide系统[允悲]（见图2）。

就这样，他得到了美国国防部的资金支持，得以进行下一步的研究。

这个故事告诉我们，不论你的领导多么不懂科研，其实都有拿出科研经费的方法[允悲]。

你可以做后面的非常深入的强化学习的研究。

但是你拿钱的方式一定要直观，一定要直给，一定导向领导的目标[笑cry]。

领导肯定会问：鸽子会强化学习，有啥用？

那一般科学家就会解释半天强化学习的概念：那拿经费就太难了。

斯金纳就把鸽子放进导弹头里面：你看如此如此，这般这般，不就可以用鸽头进行精准打击了吗？

领导：批了！[doge][doge][doge]

发布于北京