最近刷到一个很有意思的观点,说国内AI公司里最像谷歌的,应该是字节。
或者说,真正学到了谷歌Gemini路线精髓的,是字节。
而这个精髓,很大程度体现在了火山引擎这个平台上。
我们可以先回过头看一下豆包大模型这一年多的进化,会发现这样一个现象。
它不是像其他公司那样,先做一个纯文本模型,然后再加个图片理解功能,再拼个视频生成能力。
在技术路线上,从豆包1.5版本开始,就直接上了原生多模态架构。
模型在训练的时候,文本、图像、视频、音频这些数据是一起喂进去的,一开始就让模型学会在不同模态之间建立深层次的语义联系。
在生态布局上,字节背靠抖音、飞书这些超级APP,形成了一个完整的AI能力验证闭环。
每个新功能上线前,都在内部跑过几十个业务场景。
而这也是谷歌Gemini在做的事情。
但更关键的是,字节把这套能力通过火山引擎开放出来了。
所以现在火山引擎在公有云大模型服务市场占了46.4%的份额,行业第一。
尤其是最近一段时间,Seedance 2.0发布,海外社媒上直接炸了。
很多演示视频播放量几天就破百万,马斯克都忍不住评论说发展速度太快了......
而最让专业创作者兴奋的,是它终于能实现精准控制了。
过去一年我们看过太多AI生成的视频,人物走路会穿模,物理规律莫名其妙就崩了,镜头画面一转整个风格就变了。
但Seedance 2.0不一样,它支持多模态全能参考,支持最多9张图片、3段视频、3段音频,最长可生成15秒时长,而且支持文字、音频、图片、视频四种模态组合输入。
你可以指定哪个画面做运镜参考,哪个画面做角色模板,甚至可以针对某一个镜头、某一个角色进行定向修改。
《黑神话:悟空》的制作人冯骥用完Seedance 2.0之后,直接说:AIGC的童年时代结束了。
当然,这两天很多人用Seedance 2.0的人都在吐槽,排队太慢了,生成一个视频要等好久。
但对火山引擎来说,这可能是最幸福的烦恼。
这次一口气发布的三个模型,豆包视频生成模型 Seedance 2.0、豆包大模型2.0、豆包智能图像创作模型 Seedream 5.0 Lite。
即梦和豆包平台全量开放Seedance 2.0之后,流量瞬间涌进来,Token消耗量暴涨,火山引擎的服务器都在满负荷运转。
但海量的Token调用不仅给火山引擎带来商业收入,更重要的是带来海量的真实反馈数据。
用户在实际使用中遇到的问题,火山引擎的客户经理会收集起来,直接反馈给模型研发团队。
下一个版本的Seedance会更懂用户想要什么,生成效果会更好。
这就形成了一个飞轮效应,火山引擎上的用户越多,收集到的数据越多,模型越强,体验越好,用户更多。
字节内部有个说法,叫推理代工,就是把AI模型的推理能力当成一种基础设施,像代工厂一样提供给所有需要的人。
对一个中小企业来说,自己训练和部署一个大模型得花多少钱?
但如果能通过火山引擎用极低的成本调用已经验证过的、处于全球第一梯队的模型,那不是更划算吗?
这就是推理代工的商业逻辑。
这听起来是不是有点像当年富士康做的事?
把制造能力标准化、规模化、低成本化,让全世界的品牌都能用上。
而且,字节通过规模效应和技术优化,把火山引擎上的Token成本不断压低。
成本降下来了,更多企业用得起了,调用量上去了,规模效应更明显了。
火山引擎赢的不是一个模型,是一套生态
很多人看字节的AI布局,只看到豆包大模型2.0、Seedance 2.0、Seedream 5.0这些产品。
但真正厉害的是字节通过火山引擎把这些能力渗透到了每一个可能的交互入口。
从移动端到PC端,从即梦AI创作平台到火山方舟体验中心,从抖音里的智能推荐到飞书里的协同助手。
火山引擎建设的是一个无所不在的智能生态。
谷歌有搜索、地图、邮箱、文档、云服务,每个产品都在用同一套底层AI能力,然后通过Google Cloud对外输出。
字节也一样。
豆包大模型不是一个孤立的产品,是整个字节系应用的智能底座,然后通过火山引擎对外开放。
所以当其他公司还在纠结怎么让一个模型好用的时候,火山引擎已经在定义一套基于AI原生架构的新型互联网生产力标准了。
你看,格局一下就不一样了。
现在火山引擎上累计Tokens使用量超过万亿的客户有100多家,比AWS的两倍还多,而且这个数字还在快速增长。
它正在经历一个真正被市场认可的爆发期,而这个爆发背后,是一套完整的、经过验证的、正在改变行业规则的AI生态体系。
这才是火山引擎真正厉害的地方。
发布于 山东
