#微博声浪计划# #听见微博# 2026 年 3 月,英伟达年度开发者大会 GTC 在美国 San Jose 开幕。这一年的 GTC 气氛与往年明显不同——黄仁勋不再需要向市场证明 AI 的价值,因为 Agent 爆发和开源模型崛起已经让算力需求成为行业共识,Token 消耗量正在以百倍速度增长。
本期节目,Diane 在 GTC 现场为大家带来了第一手的观察,也专访了推理优化初创公司 Eigen AI 的联合创始人。Eigen AI 由三位 MIT 背景的创始人于 2024 年中创立,主攻开源大模型的推理加速与企业定制化部署。这次 GTC,他们的推理速度跑分直接登上了黄仁勋 Keynote 的大屏幕,是当前推理速度最快的团队之一。
节目里我们深入聊了为什么推理层正在成为 AI 行业最重要的竞争战场、GPU 和 LPU 各自在推理过程中扮演什么角色、英伟达斥资约 200 亿美元收购 Groq 背后的战略逻辑,以及当前 AI 应用的商业模式为何正在面临系统性挑战。
本期人物
丁教 Diane,「声动活泼」联合创始人、「科技早知道」主播
Di Jin,Co-founder at Eigen AI
主要话题
[00:11] 今年 GTC 最大的不同是什么?
黄仁勋状态明显更放松,不再需要向市场"推销" AI 的价值
Agent 爆发让 Token 消耗量指数级增长,算力需求已成行业共识
开源模型崛起打开了推理层的商业空间,这一层开始变得关键
[09:13] Eigen 是一家什么样的公司,在做什么?
三位 MIT 背景创始人,专攻模型压缩与推理加速
Post Training 帮企业定制模型,Inference 加速让模型跑得更快更便宜
GTC 开幕前两天完成技术突破,推理速度登上黄仁勋 Keynote 大屏幕
[13:24] 过去一年 AI 行业最大的结构性变化是什么?
模型训练层高度集中,GPU 成本比人才成本贵 10 到 100 倍,中小公司已基本出局
Reasoning(推理时扩展)成为新的性能提升路径,让固定模型通过多花算力输出更好结果
Agent 工作流让 Token 消耗量远超对话场景,推理层的优化价值随之暴增
[23:34] 英伟达为什么要花约 200 亿美元收购 Groq?GPU 和 LPU 各自擅长什么?
AI 生成回答分两阶段:读懂问题(Prefill)适合 GPU 并行处理,逐字生成答案(Decoding)适合 LPU 串行提速
当前最快模型约每秒 1000 个 Token,Agent 场景未来可能需要每秒 10000 个,GPU 单独难以跨越这道坎
GPU 负责前段、LPU 接手后段,两者组合是目前长序列推理的最优解
[34:04] 推理优化的技术路径有哪些,分几个层次?
底层是 CUDA 算子优化,针对不同模型的矩阵计算特点做精细调整
中间层包括量化(降低数字精度)、剪枝(删除冗余专家模块)、投机解码(小模型预测 + 大模型验证)
最上层是调度与路由,核心是把请求打到存有对应 KV Cache 的 GPU 上,避免重复计算
[44:05] 推理优化怎么在速度、精度和成本之间做取舍?
完全不掉精度、少量掉精度、需要后训练恢复精度,三类方案对应不同客户需求
对话场景最看重 TTFT(第一个字的响应时间),Agent 场景更看重整体任务完成时间
语音交互场景存在天花板:模型再快也超不过人能听懂的速度,快到一定程度就没有意义了
[47:28] AI 应用的商业模式为什么正在出现系统性问题?
SaaS 订阅制是历史遗留:以前软件边际成本接近零,现在每用一次 AI 都在真实烧钱
重度用户轻松"用穿"月度套餐,公司不得不限流,引发用户强烈反弹
更合理的方向是按任务完成量收费,但用户心理锚点还没有完成迁移,行业仍在震荡期
[53:52] 开源模型能追上闭源模型吗?推理层未来最大的机会在哪?
行业最大的非共识:开源模型到底能不能真正追上闭源,以及 AGI 算不算已经到来
推理层几乎只能服务开源模型,开源能力的拐点直接决定这个赛道的天花板
一旦开源模型达到拐点,Token 将像电力一样渗透各行各业,推理层的市场规模将彻底打开
幕后制作
监制:Yaxian
后期:迪卡
运营:George
设计:饭团
Special Guest: Di Jin. http://t.cn/AXfe9zTB
发布于 北京
