前员工爆料AI公司内幕

字节跳动前员工爆料国产头部AI公司内幕:
1)他认为中美 AI 差距在扩大不是缩小。
2)蒸馏走捷径很普遍。
3)训练用的都是英伟达的卡。
4)国产的AI Agent完全不实用。
~~~~~~~~~
张驰，浙大本科，UCLA 博士（导师朱松纯），2025 年加入字节 Seed 做数学推理，干了一年后离职去北大当助理教授。最近上播客 Into Asia 回顾了在字节的一年，不少判断跟目前的公开叙事直接冲突。

他的核心观点：

1. 字节跑完一轮完整迭代（预训练+后训练）要大约半年，谷歌据传三个月。他认为迭代速度差距是追不上的根本原因。

2. Seed 内部 benchmaxxing 严重。领导按 benchmark 分数考核，大家都在刷榜，但他说纸面追平了不等于真的好用，「实际体验不行」。

3. 2024 年底 Seed 自认追平了 GPT-4o，结果 DeepSeek 一出来才发现差距还在。他入职时全组紧急转强化学习。

4. 他认为中美 AI 差距在扩大不是缩小。原话：「我甚至不同意国内在追赶这个说法，我们仍然远远落后。」同事和学生同意，但智谱、MiniMax 这些上市公司的领导层不会同意。

5. 蒸馏走捷径很普遍。很多公司直接调 Claude/GPT/Gemini 的输出当训练数据。不过他也承认 DeepSeek 在 V3/R1 上有真正的架构创新。

6. 字节主力芯片是 NVIDIA H20，最快的卡留给预训练和后训练团队。国产芯片有但没人用于训练。字节在海外采购新一代 NVIDIA 芯片，但「肯定不在大陆」。

7. 美国公司有用户反馈飞轮，模型好用→用户多→反馈好→模型更好。国内模型起步差，没人愿意用在重要工作上，数据拿不到，恶性循环。

8. 他在谷歌实习时觉得基础设施「太好了」，跟字节差距巨大。不只是芯片，训练框架和整个基础设施都差一截。

9. 国内AI 从业者普遍用美国 Agent 工具。他自己用 Claude Code 和 Copilot，国内模型的编码 Agent 他评价「完全不实用」。字节海外团队直接用 Cursor。

10. Claude Code 好用到让他在想还要不要培养博士生，但又怕不培养下一代，以后没人做研究。

背景补充：张驰在字节只待了约一年，所在的数学组他自己说偏宣传性质，不在核心的预训练/后训练团队。他的观点是个人视角，不代表字节全貌。

发布于安徽