翁家翌谈强化学习与OpenAI

昨晚睡觉前听了一个非常不错的播客，是关于OpenAI成员翁家翌的，他是清华2016级本科生，本科毕业后去CMU读了硕士，之后在幻方，OpenAI等offer中选择了OpenAI,理由是那边做的强化学习工作和他过往的工作相匹配，且面试体验非常好，获得了大佬的赏识。

其在OpenAI的主要工作是搭建了RL Infra（强化学习基础设施），而强化学习是大模型的基石，所以OpenAI的核心论文中均有翁家翌的名字。

播客中有以下几方面，个人印象比较深刻：

1）一是翁家翌聊自己的成长经历，从小对数学感兴趣，学数学很快，获得了正反馈，但学其他内容相对慢一些，但学会了就会很快。之后对编程产生了兴趣，很痴迷于优化一些性能。于是就走上了计算机的路子。

2）二是大学阶段的翁家翌要比同龄的很多人更早觉醒，他没有被困在GPA的单一评价体系中，而是B+万岁，将精力投入到打造个人评价体系。当时导师和他说的，评价CS本科生能力的指标，论文，github星数，技术水平等，翁家翌在github星数，开源社区贡献等方面做的很出色。他做的几个项目都非常火，这也为他后续求职打下了很好的基础。早点儿构建起个人内在评价体系，是一件非常重要的事。

3）三是关于强化学习和Open AI，翁家翌将大模型的成功归咎为构造了bug更少，迭代速度更快的系统，这是性能好坏的关键。openai的成功，某种程度上来自于高的人才密度，以及信息在不同层级的一致性传递。高人才密度容易碰撞出火花来，技术的一致性传递，有助于整体的进步。Sam Altman作为CEO，有专门的研究助理帮他梳理技术的进展，从而可以对技术发展有直观的了解。

个人也应该构建自身的强化学习系统，并通过快速迭代反馈实现个人的进化，感兴趣的可以自己去看一下播客。
#openai##强化学习##播客[超话]##清华大学#

发布于浙江