倩男游神 26-04-24 22:56
微博认证:财经观察官 财经博主 微博原创视频博主

【小熊团队】DeepSeek发布,百万长下文进入普惠时代

DeepSeek最新模型V4预览版本正式上线并同步开源,包括DeepSeek-V4-Pro(总参数量1.6万亿,其中激活参数为490亿)和 DeepSeek-V4-Flash(总参数量2840亿,其中激活参数为130亿),两者均支持长达一百万token的上下文长度。

DeepSeek-V4 系列在架构与优化方面进行了多项关键升级:(1)采用混合注意力架构,将压缩稀疏注意力(CSA)与高度压缩注意力(HCA)相结合,以提升长上下文效率;(2)引入流形约束超连接(mHC),用于增强传统残差连接;(3)采用 Muon 优化器,以实现更快的收敛速度和更高的训练稳定性。

相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。

DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求,未来百万上下文有望成为模型标配。

关注国产算力、AI应用相关机会:

1)国产芯片:昇腾、寒武纪、海光等第一梯队芯片完成Deepseek-V4适配,且股价已充分调整,建议关注;此外,云天励飞等推理卡厂商,已经完成上一代模型适配,需求有望大幅增长。
2)华为昇腾周边: 华丰科技、航天电器、高新发展、川润股份、华虹半导体、中芯国际、美利信.
3)国内云计算公司:优刻得、青云科技、首都在线、每日互动等云计算公司,若能率先上线Deepseek-V4供客户调用,亦有大幅增长的预期。
4)相关AIDC公司:Deepseek需求喷发,需要底层的AIDC作为支撑,建议关注东阳光、光环新网、数据港、东方国信、杰创智能、豫能控股等。
5)相关传媒公司:每日在线等。
6)AI应用公司:金蝶国际、用友网络等

#新易盛暴跌原因#

发布于 浙江