午评，推理大降价字节跳动豆包大模型Foundation团队近期提出UltraMem，一种同样将计算和参数解耦的稀疏模型架构，在保证模型效果的前提下解决了推理的访存问题。该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2-6倍，推理成本最高可降低83%。降本83%，直接利好端测，利空GPU。按

午评，推理大降价
字节跳动豆包大模型Foundation团队近期提出UltraMem，一种同样将计算和参数解耦的稀疏模型架构，在保证模型效果的前提下解决了推理的访存问题。该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2-6倍，推理成本最高可降低83%。
降本83%，直接利好端测，利空GPU。
按照这个速度发展下去，云部署和本地部署的成本都极大降低。
万卡集群的意义越来越小，除非是国家级项目（类比超级计算机当作国力指标来呈献）
受此消息刺激，端测集体上涨，当然因为潜伏盘很多，出现冲高回落也很正常，不去追高就好了。
端测和云，都会被这类降本消息或者开源消息刺激。
越多团队做出此类突破，就会有脉冲的冲高。

现在国内大厂在deepseek的启发下，一方面开始逐步开源（豆包已经把视频大模型开源），一方面狠狠的卷降价（参考今天这个推理降本83%），像极了制造业的困境。
但和比亚迪那样的破坏性创新不同，他的卷，是自己不赚，也不让别人赚。
ai的卷，是让推理大模型越来越平权，让云厂商安心赚，自己拿到大量用户，用户白嫖到好产品，多方共赢，这是两码事。
而且软件和硬件的卷，也是不一样的边际成本。

最后，依然要提示风险。
目前AI的交易拥挤度已经到了有风险区域。
按照历史经验，基本过60%就是板块尽头，昨天已经到了45%成交占比。
最后的疯狂到来前，记得把利润留下，留个底仓飞！

发布于广东