预测将来发生的事情是件既科学又有趣又极有挑战的事情。
下周一定有惊喜。
惊喜在什么地方?目前没有人知道。
除了下午预测的那些他们已经在线上使用的一些推理加速框架,我更期待的还是多模态模型的更新。
捋一下我的一些看法:
1、DeepSeek的语言模型V3、R1很强,但只能处理(输入和输出)文本信息。
2、未来多模态模型(包括游戏、娱乐、视频、智能家电、AI玩具)需要的多模态模型计算量会远超文本类的语言模型。
3、DeepSeek什么相对弱一些?就是图像视觉类的模型,Janus发布后反响比较一般,有较高的提升空间。
4、如果下周的大招之一是Janus显著增强, 增强可能来自4方面:
A: 视觉理解能力更强
B: 视觉生成更拟真
C: 生成速度大幅提升
D: 生成成本大幅降低
比起V3,R1类的文本类处理,语音、图片、视频类的处理需求量更大,但一直受制于GPU计算量极大耗时较长而难以快速在产品端落地。
如果第4点解决了ABCD中的2个方面及以上,则是极大的生产能力释放,催生出虚拟世界和现实世界的各种应用。
一起期待!
发布于 广东
