dingtingli 26-03-05 22:39
微博认证:科技博主

最近,阿里通义千问负责人林俊旸离职的消息在圈内引发了热议。

回头看这波大模型浪潮的顶尖人才,有个现象很有意思:很多人并非国外顶尖名校的 CS 科班出身。

比如林俊旸,以及此前的罗福莉,都是在研究生阶段进入北大深造,且背景都语言学,主要研究方向集中在自然语言处理(NLP)。

当年 Transformer 横空出世,对传统的 NLP 研究路线可以说是一场“灭顶之灾”。它以极其强势的姿态,几乎统一了过去繁杂的各项技术路径。

然而,对于这批一线研究者而言,这种底层范式的转移并非灾难。扎实的神经网络与语言学底子,让他们能迅速吃透 Transformer 架构。

更重要的是,由于身处核心项目,他们拥有了普通研究者难以企及的算力资源去“练兵”。这让他们在全球范围内,成为了第一批在超大规模模型训练中,积累起丰富实战“手感”的顶级专家。

有意思的是,当年发表 Transformer 奠基之作《Attention Is All You Need》的几位 Google 联名作者,如今大多并未在头部大模型企业中担任技术一号位。

反而是 OpenAI 的 Ilya 率先看懂了“大力出奇迹”的 GPT 路线。正是这一转向,让这批深耕 NLP、手握算力资源的研究员刚好赶上了好时候。

这不禁让人想起雷军的“风口论”:入场太早容易成为先驱,入场太晚则错失良机,精准的切入时机至关重要。

坦白说,大模型在算法层面的创新,并没有那些经典的传统计算机算法那样,充满令人惊叹的精妙感。

但大模型单次训练极度高昂的试错成本,决定了“实战经验”本身就是最宽阔的护城河。

在动辄千万美元一次的训练里,谁能凭经验避开各种“暗坑”、保证模型不炸炉并顺利收敛,谁就握住了这个时代最硬的底牌。

发布于 美国