Max_For_AI 25-05-22 21:52
微博认证:AI博主

感谢微博AI的运营同学邀请我和@梁赛 、@karminski-牙医 还有@Transformer-周 一起进行了一次直播讨论
主题是关于DeepSeek-R2 最近的传闻,一口气聊了一个多小时
下面是我们聊了什么⬇️

一、首先我们聚焦于近期网络上关于 DeepSeek 的一些“劲爆”传闻,尤其是被戏称为“草莓哥”的爆料。这些传言包括“推理性能提升 400 倍”、“成本暴降 97.4%”、“彻底放弃 Transformer 架构”、“一键实现室温超导材料发现”等等,听起来令人热血沸腾。

然而,我们对此普遍持谨慎乃至怀疑态度。

牙医老师从infra的角度进行了精辟分析。
他以 H100 显卡为例(约 2 PetaFLOPS 的 FP16 性能,约 2 TB/s 的显存带宽),指出计算强度(算力/访存带宽)是衡量算法瓶颈的关键。
如果真如传言所说,每 TFLOPs 的推理能力提升 400 倍,意味着算力效率大幅提升,计算单元会更快完成任务,从而更频繁地等待数据读取,这将使得访存带宽成为更严重的瓶颈。除非访存技术有同等级别的突破,否则单纯的算力效率提升带来的实际效益将大打折扣。
牙医老师直言,爆料者可能既不懂 Transformer 的核心瓶颈,也不了解所谓的“递归认知网格”——一个在学术界几乎无人提及的概念。因此,此类言论的置信度“约等于零”。
周老师认为,在没有业界公认的、可完全替代 Transformer 的成熟方案出现之前,DeepSeek 不太可能贸然进行如此颠覆性的底层创新。更现实的路径是基于 Transformer 进行优化,例如改进多头注意力(MLA)、采用更高效的 MoE (Mixture of Experts) 结构等,这些本就是优秀工程师的“基操”。
对于“一键实现室温超导”这类说法,我们一笑置之,认为这超出了当前科技水平。
至于成本下降,虽然 DeepSeek 的 Janus 架构确实致力于降低多模态输入的成本(例如将图片输入输出整合,减少重复处理),但 97.4% 的降幅缺乏具体依据,更多是吸引眼球的说法。
我们一致认为,这些“小作文”更多反映了大众对中国 AI 技术突破的热切期盼和一定程度的焦虑情绪,而非技术现实。

二、抛开那些流言,DeepSeek 的核心目标——实现通用人工智能 (AGI)——才是理解其技术布局的关键。
通往 AGI 的路上需要攻克三大难关⬇️
1️⃣ 数学与代码能力:
这是衡量模型逻辑推理和问题解决能力的核心。DeepSeek 在此早有布局,例如其发布的 Prove-Math 模型,专注于数学定理证明,显示了其在该领域的决心。
2️⃣ 多模态能力:
实现 AGI 需要模型能够理解和生成多种信息形式。
3️⃣ 强大的语言模型:
这是所有能力的基础。
按照我对于DeepSeek团队的理解,他们对 AGI 是有着坚定执着的。
DeepSeek 的策略是从 AGI 的最终需求出发,反推当前需要实现哪些能力、攻克哪些瓶颈。这种“以终为始”的研发思路,使其在技术选择上更注重基础性和前瞻性,而非短期商业回报。
这与 OpenAI 当前的商业化运作模式形成了对比。OpenAI 作为行业领头羊,面临盈利、产品迭代和投资人等多重压力,其行动往往带有更强的市场和营销导向。
而 DeepSeek 则展现出更纯粹的学术和研究气质,其内部管理也更偏向自由探索,鼓励团队在不同方向上尝试。

三、基于对 DeepSeek 战略和当前技术趋势的理解,我们对 V4 及可能的 R 系列模型在以下几个方面寄予厚望⬇️
1️⃣ 多模态能力的融合与提升:
当前多模态模型(如谷歌的 Veo,以及Dpsk春节前发布的 7B Janus)在某些单点能力上表现突出,但端到端的原生多模态、尤其是高质量的跨模态生成仍有较大提升空间。
牙医老师指出,Janus 的识别能力(文图生 Prompt,图生文)很强,但文生图效果则相对落后。
但高质量、大规模、精细标注的多模态训练数据是巨大瓶颈。
国内数据虽多,但清洗和标注成本高昂。此外,模型架构(如 Diffusion Transformer vs. 自回归)的选择也仍在探索。
V4 我们很希望是一个原生的多模态模型。即使不能一步到位达到“摧枯拉朽”的效果,能“做出来”本身就是进步,后续迭代优化可期。
大家认为,只要 DeepSeek 能把多模态的“架子”搭起来,就有提升的机会。

2️⃣ 数学与代码能力的再进化:
这是 AGI 的基石,也是 DeepSeek 持续发力的方向。
其 V3 模型在 3 月份的更新版本(0324 版)在代码和数学能力上已接近 Claude3.5 水平。
R2 或后续模型有望在代码生成、数学推理上追赶甚至部分超越 Claude 3.7 等顶级模型。
牙医老师甚至大胆猜想,DeepSeek 可能认为只有编码和数学的极致强大才是真正的 AGI 核心,其他能力(如绘画)可能并非其首要关注点。
R2 可能会在特定高难度数学问题求解或新的编程基准测试上展现突破。

3️⃣Agent、工具调用与编排能力的增强:
模型与外部世界交互、调用工具、执行复杂任务是 AGI 的重要特征。
周老师认为,DeepSeek 一直对标世界最好的 AGI,因此在 Agent 调用工具和编排能力上(如 Function Calling、MCP)可能会有突出表现,这可能是其在后训练阶段寻求差异化突破、以小博大的一个重要方向。
周老师认为,短期内不太可能出现一个无所不能的“超级 Agent”,更现实的是在特定场景下(如浏览器操作、代码执行)强化模型的 Agent 能力。DeepSeek 如果能在 1-2 个场景下做出第一方的、能力顶尖的 Agent,就足以令人惊艳。
R2不太可能抛弃 Transformer,更可能是在其基础上进行优化,如 MLA (Mixture-of-Logits Attention) 或更先进的 MoE 结构。有专家提及学术界正在探索将 Transformer 中的某些层替换为 RNN 类结构以优化推理成本和 KV Cache,这或许是 DeepSeek 可能探索的一个细微优化方向。
在有限算力下,进一步提升模型性能和效率。

四、直播里“算力”问题被反复提及。
国内在高端训练芯片方面确实存在“卡脖子”问题,这限制了模型训练的规模和迭代速度。DeepSeek 的许多优化,都是在算力受限的背景下,尽可能挖掘每一块 GPU 的潜力。
但我们对此持乐观态度,正如黄仁勋所言,芯片管控反而会加速中国国产芯片的研发和替代进程。
华为等国内厂商已在该领域取得突破。
CUDA 的壁垒曾被认为是英伟达的“护城河”,但随着 AI辅助编程甚至 AI 生成 CUDA 代码技术的发展,以及国内厂商在兼容 CUDA 方面的努力(已有芯片实现 70% 以上的零兼容),这一壁垒正逐渐被削弱。
时间在我们这,中国庞大的人才储备和持续投入,终将攻克技术瓶颈。

五、 理性看待 V4
鉴于此前“小作文”的过度渲染,我们也表达了对公众期望过高的担忧。
过高的期望可能给 DeepSeek 团队带来不必要的压力。如果 V4 发布后未达到某些传言中的“神级”水平,可能会引发一些负面情绪。
但我们相信,以 DeepSeek 的内部要求,他们不会发布未达标的产品。“它如果没达到爆料的水平,它不会发”。
AI 的发展是循序渐进、厚积薄发的过程,而非一蹴而就的“核弹爆炸”。
DeepSeek V3 已经打响了第一炮,公众应给予其更多的时间和空间去迭代和优化,尤其是在算力相对紧缺的条件下。
每一次进步都值得肯定。
我们可以清晰地感受到,DeepSeek 的发展路径是务实而富有远见的。
它不追求一时的喧嚣与热度,而是将目光投向 AGI 的宏伟目标,在数学、代码、多模态等核心能力上持续深耕。
尽管面临算力、数据等挑战,但其团队展现出的技术实力、优化能力和对 AGI 的坚定信仰,让人对其未来充满信心。
对于即将到来的 V4 和 R 系列模型,我们或许不应期待天马行空的“魔法”,而应关注其在关键技术点上的扎实进步——更强的逻辑推理、更自然的跨模态交互、更高效的工具调用。
每一次迭代,都是中国 AI 力量向更高峰攀登的坚实一步。让我们保持理性期待,给予这些探索者们足够的耐心与支持,共同见证 AI 技术如何一步步改变世界。
而 DeepSeek,无疑是这场变革中值得我们高度关注的关键角色。
#ai deep talk# #人工智能[超话]# #deepseek# #科技快讯#

发布于 广东