预测将来发生的事情是件既科学又有趣又极有挑战的事情。下周一定有惊喜。惊喜在什么地方？目前没有人知道。除了下午预测的那些他们已经在线上使用的一些推理加速框架，我更期待的还是多模态模型的更新。捋一下我的一些看法：1、DeepSeek的语言模型V3、R1很强，但只能处理（输入和输出）文本信息

预测将来发生的事情是件既科学又有趣又极有挑战的事情。
下周一定有惊喜。
惊喜在什么地方？目前没有人知道。
除了下午预测的那些他们已经在线上使用的一些推理加速框架，我更期待的还是多模态模型的更新。

捋一下我的一些看法：
1、DeepSeek的语言模型V3、R1很强，但只能处理（输入和输出）文本信息。
2、未来多模态模型（包括游戏、娱乐、视频、智能家电、AI玩具）需要的多模态模型计算量会远超文本类的语言模型。
3、DeepSeek什么相对弱一些？就是图像视觉类的模型，Janus发布后反响比较一般，有较高的提升空间。
4、如果下周的大招之一是Janus显著增强，增强可能来自4方面：
A：视觉理解能力更强
B：视觉生成更拟真
C：生成速度大幅提升
D：生成成本大幅降低

比起V3，R1类的文本类处理，语音、图片、视频类的处理需求量更大，但一直受制于GPU计算量极大耗时较长而难以快速在产品端落地。

如果第4点解决了ABCD中的2个方面及以上，则是极大的生产能力释放，催生出虚拟世界和现实世界的各种应用。

一起期待！

发布于广东