#模型时代# Perplexity CEO谈DeepSeek:除非在数学上能证明这是不可能的,否则总有人能想出更有效率的方案。美国与其阻止别人竞争,不如自己做的更好。
看到Ridiculeisnormalcy提到CNBC对Perplexity CEO 做专访谈DeepSeek(跳转:http://t.cn/A63JquBe),找来看了一下,很有料。特别是Aravind Srinivas几乎是从一个技术产业专家的角度做了分析,而不是陷于地缘竞争的叙事。
我印象最深的几个观点:
1、架构上,Aravind Srinivas觉得DeepSeek的MOE做的很好,但是8位低精度训练也很重要,现在美国还没做到;
2、虽然硬件资源受限,但是这并不能阻止竞争,因为“除非在数学上能证明这是不可能的,否则你总能想出更有效率的方案”。所以,主持人和他都谈到,需求是创新之母。正因为必须寻找变通方案,最终建造出了一个效率更高的系统。实际上,Perplexity已经在用DeepSeek了。一句话:需求是创新之母。
3、但是,Srinivas也不觉得这对Meta会有长期冲击,因为他认为Meta仍然会开发出比Deepseek 3更好的模型,而我们(美国)不应该把所有精力都集中在禁止和阻止他们(指中国)上,而是要努力在竞争中胜出。这才是美国人做事的方式——就是要做得更好。"
***
一、中美AI竞争的形势与挑战
主持人开门见山地询问:"我想了解目前的形势。请描述一下中美之间的AI竞争,以及其中的利害关系。"
Srinivas首先指出了中国面临的劣势:"中国在与美国的竞争中存在诸多不利因素。最主要的是他们无法获得我们这里能用到的所有硬件。他们只能使用相对较低端的GPU,几乎相当于在用上一代的GPU在勉强工作。考虑到更大规模的模型往往更智能,这自然使他们处于劣势。"
然而,他紧接着提出了一个发人深省的观点:"但另一方面,需求是创新之母。正因为他们必须寻找变通方案,他们最终建造出了一个效率更高的系统。这就像是在说'嘿,你们必须开发出一个顶尖模型,但我不给你们资源,你们自己想办法'。除非在数学上能证明这是不可能的,否则你总能想出更有效率的方案。"
二、Deepseek的突破性进展
主持人追问Deepseek的具体成就时,Srinivas详细解释道:"他们推出了一个成本比GPT-4低10倍、比Claude低15倍的模型。运行速度很快,达到每秒60个token。在某些基准测试中表现相当或更好,某些则稍差,但总体上与GPT-4水平相当。更令人惊讶的是,他们仅用了大约2048个H800 GPU,相当于1000-1500个H100 GPU,总计算成本仅500万美元左右。这个模型免费开放,并发布了技术论文。这让我们不得不思考,如果说模型训练也有'Doge币'式的突破,这就是一个典型案例。"
三、技术创新的深度解析
当主持人询问具体的技术突破时,Srinivas展现出专业的洞察:"当我仔细阅读技术论文时,他们提出的巧妙解决方案令人印象深刻。首先,他们训练了一个混合专家模型(Mixture of Experts),这并不容易。人们难以追赶OpenAI,特别是在MOE架构方面,主要是因为存在大量不规则的损失峰值,数值并不稳定。但他们提出了非常巧妙的平衡方案,而且没有增加额外的技术修补。他们还在8位浮点训练方面取得突破,巧妙地确定了哪些部分需要更高精度,哪些可以用更低精度。据我所知,8位浮点训练的理解还不够深入,美国的大多数训练仍在使用FP16。"
四、开源与创新的辩论
主持人提出了一个敏感话题:"我们不完全了解它的训练数据,对吧?尽管是开源的,我们知道一些训练方法,但并非全部。有种说法认为它是在公开的ChatGPT输出上训练的,这意味着只是在复制。但你说这远不止于此,这里有真正的创新?"
Srinivas以数据视角回应道:"他们训练了约14.8万亿个token。如今互联网上确实充斥着ChatGPT的内容。你看看LinkedIn或X上的评论,很多都是AI写的。人们在使用Grok推文增强器、LinkedIn的AI增强工具,或者在Google Docs和Word中使用AI工具重写内容。当人们把这些内容复制到互联网上时,自然会包含一些ChatGPT式的训练元素。很多人甚至懒得删除'我是一个语言模型'这样的字样。这很难控制,XAI也提到过这一点。但我认为不能仅仅因为在某些提示下它会做出类似的回应,就否定他们的技术成就。"
五、中美AI实力的重新评估
主持人直指核心问题:"长期以来,我们认为中国在AI领域落后于美国。这次突破对这场竞赛意味着什么?我们能说中国正在赶上来,还是已经追平了?"
Srinivas给出了一个引人深思的比较:"如果我们说Meta正在追赶OpenAI和Anthropic,那么同样的说法也适用于中国追赶美国。O-1发布后,我看到的来自中国的复制尝试论文比美国的还多。而且,Deepseek能使用的算力规模大致相当于美国博士生能获得的水平。顺便说一下,这不是在批评其他人,即使对我们Perplexity来说,我们也决定不训练模型,因为我们认为这太昂贵了,觉得不可能追赶上其他人。"
六、Perplexity的战略选择
当主持人询问是否会整合Deepseek时,Srinivas表示:"我们已经开始使用它了。他们提供API,而且因为是开源的,我们也可以自己部署。使用它可以让我们以更低的成本完成许多任务。但我在想的是更深层的问题:既然他们能训练出如此优秀的模型,这对美国公司来说,包括我们在内,就不再有借口说做不到这一点了。"
七、对AI未来的思考
讨论转向了更宏观的战略思考。主持人提到:"你经常听到很多AI领域的思想领袖,无论是研究人员还是企业家,比如Elon Musk等人说中国无法赶上。他们认为AI主导权关系到经济霸权,关系到世界主导权。你对中国展示的能力感到担忧吗?"
对于"威胁论"的讨论,Srinivas提出了一个更务实的观点。他说:"首先,我不确定Elon是否说过中国无法赶上这样的话。更重要的是,我认为必须把Sam Altman这样的人说的话与他们的自身利益区分开来。关键在于,无论采取什么措施试图阻止他们追赶,他们最终还是追上来了。需求确实是创新之母。"
他进一步指出了一个更具战略意义的担忧:"比起试图阻止他们追赶,更危险的是他们现在拥有最好的开源模型,而所有美国开发者都在使用它进行开发。这更危险,因为这意味着他们可能会掌握整个美国AI生态系统的思维份额。历史告诉我们,一旦开源赶上或超越闭源软件,所有开发者都会转向开源。"
八、AI模型的商品化趋势
在讨论到大语言模型的发展趋势时,Srinivas做出了富有洞察力的预测。他表示:"今年我们将看到更多的商品化进程。在推理类模型方面,可能会经历类似的轨迹——最初只有一两个玩家知道如何做,但随着时间推移...现在的这些模型水平,未来会以5到10倍更便宜的价格,以开源的形式出现,这只是时间问题。但目前还不清楚的是,一个能在测试时进行推理的模型是否能便宜到我们都可以在手机上运行它的程度。"
九、Perplexity的商业化之路
在访谈的最后部分,谈到了Perplexity自身的发展策略。Srinivas分享了他们在商业化方面的创新尝试,特别是在广告模式上的探索。他强调:"我们一直在非常谨慎地思考这个问题。只要答案始终准确、不偏不倚,不受广告预算的影响,用户只会看到一些赞助问题,而这些问题的答案也不受赞助方影响。我们现在只收取CPM费用,甚至没有激励让用户点击。我认为考虑到这些因素,我们实际上是在试图从长远角度把事情做对,而不是走Google那样强迫你点击链接的老路。"
十、当谈到对Meta的影响
差点忘了这个点,写到最后吧。
当主持人谈及美国开源阵营的领头企业:"美国目前最领先的开源模型是Meta的Llama家族。它非常优秀,是一个可以在普通电脑上运行的模型。但即便在发布时接近GPT-4和Claude的水平,最接近的也是巨大的405B参数版本,而不是可以在个人电脑上运行的70B版本。当时还没有一个小型、经济、快速、高效的开源模型能够与OpenAI和Anthropic的顶级闭源模型相媲美。无论是美国还是Mistral AI都没有做到这一点。"
Srinivas对Meta的未来发展持乐观态度:"我认为Meta仍然会开发出比Deepseek 3更好的模型,不管他们叫它Llama 4还是3点几都无所谓。但更重要的是,我们不应该把所有精力都集中在禁止和阻止他们(指中国)上,而是要努力在竞争中胜出。这才是美国人做事的方式——就是要做得更好。"
他特别强调了Meta在开源领域的贡献:"实际上,Meta的Llama 3.3技术报告非常详细,对科学发展很有价值。他们分享的细节已经比其他公司多得多了。"
Srinivas认为,与其担心中国的追赶,更重要的是保持创新势头,继续推动技术进步。这种观点反映了他对开源发展模式的信心,也展现了对Meta未来发展前景的期待。 http://t.cn/A63J5Oqz
发布于 韩国
