豆包 2.0 被曝或春节前上线
据晚点 LatePost 报道,豆包 2.0 或将会在今年春节前上线。
报道称,即将发布的豆包 2.0 模型是吴永辉(字节 Seed 基础研究负责人)接管 Seed 一年最核心的产出。它是一款类似 Gemini 的多模态模型,10000 亿参数,是 Seed 成立以来训练的最大模型。
有 Seed 人士通过报道透露,这款模型训练期间遇到基础设施层面的挑战。他们分析,过去两年 Seed 持续追赶期间,相对忽视了基础能力建设,所以训练豆包 2.0 期间扩大参数规模时不稳定,一度难以推进。
据悉,OpenAI 的 RL Infra 负责人翁家翌在一档播客节目中说,每个模型团队的 Infra 都有 bug,模型公司本质上拼的是 Infra 修 bug 的速度,它决定了单位时间内验证想法的数量,而想法只要提高人才密度就能解决。
报道指出,对于 Seed 团队,想要重整 Infra 系统难度更大。
据了解,Seed 的 Infra 团队有数百人,同时支撑 Seed 内部数十款模型的研发和尝试,高层认为水平国内第一。「想要重整,需要投入大量人力、物力,还要承担不小的信任成本。」 一位 Seed 人士说,只能 「边开车边修轮子」。
据悉,训练豆包 2.0 遇到问题后,最终多个团队配合,花了 3 个月时间,主要从模型架构、训练数据等方面入手解决问题,确保模型赶在春节前上线。
