#模型时代# 从十亿美元营收看人类数据的未来:Surge CEO Edwin Chen的创业启示
用刚才的写作风格提示词,基于一个播客字幕写了一个记录blog,看起来还不错。出处:No Priors Ep. 124 | With SurgeAI Founder and CEO Edwin Chen
***
在人工智能领域,有一家公司在五年内从零起步,bootstrapping(自力更生式创业)到超过10亿美元的年营收,却始终保持着低调神秘的形象。这家公司就是Surge,一家专注于为顶级AI实验室提供高质量人类数据的初创企业。不过,由于Meta大价钱收购了Scale AI,也让Surge浮出水面。
近日,Surge创始人兼CEO Edwin Chen在播客《No Priors》中首次深度分享了公司的发展历程和对AI数据未来的洞察。
Edwin Chen的创业灵感来源于他在谷歌、Facebook和Twitter的工作经历。作为这些科技巨头的机器学习工程师,他反复遇到同一个问题:获取训练模型所需的高质量数据极其困难。"即使是构建一个简单的情感分析分类器这样的基础任务,我们都难以获得所需的数据,"Edwin回忆道,"如果连这些基础工作都如此困难,那么我们如何能构建下一代的AI系统呢?"
1、逆流而上的创业选择
Edwin Chen的职业生涯堪称硅谷精英的典型轨迹——先后在Google、Facebook和Twitter担任机器学习工程师。然而,他选择创业的方式却与主流大相径庭。
"硅谷有一个奇怪的现象,"Edwin说,"很多创始人的目标不是解决问题,而是向朋友炫耀他们融了1000万美元,或者在TechCrunch上获得头条。"这种对融资的执念让他感到困惑。作为在大厂工作多年的工程师,明明有能力支付自己几个月的工资,为什么第一反应还是去融资?
Surge从创立之初就选择了bootstrapping的道路。这个决定源于一个简单的逻辑:**如果你不需要钱,为什么要放弃控制权?**五年来,Surge始终保持盈利,团队规模控制在100人左右,却服务着Google、OpenAI、Anthropic等顶级AI实验室。
2、人类数据的真正价值
在大模型时代,什么是高质量的人类数据?Edwin用一个生动的例子解释了这个概念。
假设你要训练模型写一首关于月亮的八行诗。传统的数据公司会从Craigslist雇佣一批人,检查他们的作品是否满足三个条件:是诗歌吗?有八行吗?包含"月亮"这个词吗?满足这些条件就算合格。
"但这样得到的是什么?"Edwin反问,"是一些看起来像高中生写的糟糕诗歌。"
另一些公司会想:那我们雇佣英语文学博士吧。但Edwin指出,这同样是个误区。"海明威和艾米莉·狄金森都没有博士学位,我认识很多MIT计算机科学毕业生,他们的编程能力其实很糟糕。"
Surge追求的是诺贝尔奖获得者水平的诗歌。这意味着要认识到诗歌创作的主观性和丰富性——可能是一首关于月光洒在水面的俳句,可能是充满内韵和节奏的作品,也可能聚焦于月亮升起时的情感。每一种方式都能让模型学习到语言、意象和诗歌的不同维度。
3、超越人类的未来挑战
随着模型能力不断提升,一个不可回避的问题是:当AI在某些领域超越人类专家时,人类数据还有价值吗?
Edwin的答案是肯定的,原因有三:
第一,合成数据的局限性。"客户经常告诉我们,他们花了6个月时间生成了1000万条合成数据,最后发现99%都没用。相比之下,1000条精心策划的高质量人类数据往往更有价值。"
第二,模型需要外部校准。Edwin举了一个令人哭笑不得的例子:某个顶级模型在回答问题时,有10%的概率会突然输出印地语或俄语字符。模型本身无法意识到这个问题,需要人类的外部视角来纠正。
第三,防止优化偏差。当前流行的LMSYS Arena评测存在严重问题——评估者往往只花5-10秒就做出选择,倾向于选择格式漂亮、表情符号多、回复更长的答案。"这就像在训练模型生产标题党内容,"Edwin警告说,"有些研究人员明确告诉我,他们的VP要求提高排名,即使这意味着牺牲事实准确性和指令遵循能力。"
4、RL环境:下一个数据前沿
Surge目前投入大量资源的一个领域是强化学习(RL)环境的构建。Edwin描绘了一个令人震撼的场景:
想象你是一名销售人员。你需要在Salesforce中管理客户关系,通过Gmail获取潜在客户,在Slack上与客户沟通,用Excel追踪销售线索,用Google Docs撰写提案,用PowerPoint制作演示文稿。未来的RL环境需要模拟你作为销售人员的整个世界——不仅是桌面上的一切,还包括日程安排、出差会议,甚至要模拟路上遇到车祸需要提前出发这样的突发事件。
"这些环境需要生成数千条Slack消息、数百封邮件,确保它们相互一致,时间线合理,外部事件自然发生。"Edwin说,"复杂度和真实感没有上限——环境越丰富,模型能学到的东西就越多。"
5、对行业未来的独特预测
当被问及哪家公司可能追赶上OpenAI、Anthropic和DeepMind时,Edwin毫不犹豫地选择了xAI。"他们非常饥渴,使命驱动的方式给了他们独特的优势。"
更有趣的是,Edwin认为未来会有更多而非更少的前沿模型公司。"模型不会成为商品化产品。每家公司都有自己的原则和专注点——有些擅长编程,有些注重消费者体验,有些在特定领域有独特优势。就像今天我会根据不同任务在各个模型间切换一样,未来这种多样性只会增加。"
6、从幕后到台前的转变
尽管Surge已经成为人类数据领域的隐形冠军,Edwin透露公司正在考虑更多的公开研究和教育工作。"由于明显的原因,很多前沿实验室不再发表研究成果。这导致整个行业陷入了一些我很担心的陷阱。"
他特别提到了当前评测体系的问题,比如IF-Eval(指令遵循评测)中包含这样的任务:"写一篇关于林肯的文章,每次提到'Abraham Lincoln'时,确保有5个字母大写,其余小写。"这种脱离实际的评测标准正在误导整个行业的发展方向。
发布于 美国
