字节跳动前员工爆料国产头部AI公司内幕:
1)他认为中美 AI 差距在扩大不是缩小。
2)蒸馏走捷径很普遍。
3)训练用的都是英伟达的卡。
4)国产的AI Agent完全不实用。
~~~~~~~~~
张驰,浙大本科,UCLA 博士(导师朱松纯),2025 年加入字节 Seed 做数学推理,干了一年后离职去北大当助理教授。最近上播客 Into Asia 回顾了在字节的一年,不少判断跟目前的公开叙事直接冲突。
他的核心观点:
1. 字节跑完一轮完整迭代(预训练+后训练)要大约半年,谷歌据传三个月。他认为迭代速度差距是追不上的根本原因。
2. Seed 内部 benchmaxxing 严重。领导按 benchmark 分数考核,大家都在刷榜,但他说纸面追平了不等于真的好用,「实际体验不行」。
3. 2024 年底 Seed 自认追平了 GPT-4o,结果 DeepSeek 一出来才发现差距还在。他入职时全组紧急转强化学习。
4. 他认为中美 AI 差距在扩大不是缩小。原话:「我甚至不同意国内在追赶这个说法,我们仍然远远落后。」同事和学生同意,但智谱、MiniMax 这些上市公司的领导层不会同意。
5. 蒸馏走捷径很普遍。很多公司直接调 Claude/GPT/Gemini 的输出当训练数据。不过他也承认 DeepSeek 在 V3/R1 上有真正的架构创新。
6. 字节主力芯片是 NVIDIA H20,最快的卡留给预训练和后训练团队。国产芯片有但没人用于训练。字节在海外采购新一代 NVIDIA 芯片,但「肯定不在大陆」。
7. 美国公司有用户反馈飞轮,模型好用→用户多→反馈好→模型更好。国内模型起步差,没人愿意用在重要工作上,数据拿不到,恶性循环。
8. 他在谷歌实习时觉得基础设施「太好了」,跟字节差距巨大。不只是芯片,训练框架和整个基础设施都差一截。
9. 国内AI 从业者普遍用美国 Agent 工具。他自己用 Claude Code 和 Copilot,国内模型的编码 Agent 他评价「完全不实用」。字节海外团队直接用 Cursor。
10. Claude Code 好用到让他在想还要不要培养博士生,但又怕不培养下一代,以后没人做研究。
背景补充:张驰在字节只待了约一年,所在的数学组他自己说偏宣传性质,不在核心的预训练/后训练团队。他的观点是个人视角,不代表字节全貌。
