36氪
26-05-26 18:45 微博认证:36氪官方微博

2024年,强化学习奠基人理查德·萨顿与他的导师安德鲁·巴托共同获得了图灵奖。
这个奖项来得不算早。过去三十年,萨顿的理论支撑了AlphaGo、ChatGPT等系统的进化,但他三十年前写下的理论,直到今天才被具身智能行业真正理解:
智能体要从试错中学习,要从真实经验里进化。
2023年,萨顿参与创办非营利研究机构Openmind。2025年4月,萨顿在联合发表的文章《欢迎来到经验时代(Welcome to the Era of Experience)》中,再次一针见血地指出:
“新一代智能体,必须拥有像人类一样在长时间尺度上不断推进的经验流,在真实的物理反馈中实现自我进化。”
这一次,除了理论之外,萨顿把目光投向了更远的地方。
今年5月,萨顿与他山科技在加拿大正式签约,以长期合作的形式共同推进一个名为“机器人幼儿园”的项目。详情请阅读: http://t.cn/AX6pOuJf