王之葵托利 26-01-22 09:14
微博认证:微博新知博主 汽车博主

昨晚睡觉前听了一个非常不错的播客,是关于OpenAI成员翁家翌的,他是清华2016级本科生,本科毕业后去CMU读了硕士,之后在幻方,OpenAI等offer中选择了OpenAI,理由是那边做的强化学习工作和他过往的工作相匹配,且面试体验非常好,获得了大佬的赏识。

其在OpenAI的主要工作是搭建了RL Infra(强化学习基础设施),而强化学习是大模型的基石,所以OpenAI的核心论文中均有翁家翌的名字。

播客中有以下几方面,个人印象比较深刻:

1)一是翁家翌聊自己的成长经历,从小对数学感兴趣,学数学很快,获得了正反馈,但学其他内容相对慢一些,但学会了就会很快。之后对编程产生了兴趣,很痴迷于优化一些性能。于是就走上了计算机的路子。

2)二是大学阶段的翁家翌要比同龄的很多人更早觉醒,他没有被困在GPA的单一评价体系中,而是B+万岁,将精力投入到打造个人评价体系。当时导师和他说的,评价CS本科生能力的指标,论文,github星数,技术水平等,翁家翌在github星数,开源社区贡献等方面做的很出色。他做的几个项目都非常火,这也为他后续求职打下了很好的基础。早点儿构建起个人内在评价体系,是一件非常重要的事。

3)三是关于强化学习和Open AI,翁家翌将大模型的成功归咎为构造了bug更少,迭代速度更快的系统,这是性能好坏的关键。openai的成功,某种程度上来自于高的人才密度,以及信息在不同层级的一致性传递。高人才密度容易碰撞出火花来,技术的一致性传递,有助于整体的进步。Sam Altman作为CEO,有专门的研究助理帮他梳理技术的进展,从而可以对技术发展有直观的了解。

个人也应该构建自身的强化学习系统,并通过快速迭代反馈实现个人的进化,感兴趣的可以自己去看一下播客。
#openai##强化学习##播客[超话]##清华大学#

发布于 浙江