DeepSeek发布AI模型技术论文

SCMP：DeepSeek技术论文显示前沿创新——
DeepSeek的新论文提出了“条件记忆（Engram）”技术，旨在解决GPU高带宽内存限制的瓶颈，使模型训练能够实现“激进参数扩展”。
另一篇论文介绍了“流形约束超连接（mHC）”方法，这是一个可扩展训练AI系统的通用框架，为基础模型的发展指明了潜在方向。
DeepSeek公司保持了R1项目的核心团队完整，包括18名核心科学家及176名贡献者，即便中国AI行业人才竞争激烈，但仍未公布下一代V4和R2模型的具体发布时间。

DeepSeek专注于改进AI模型基础设施，尤其在地缘政治紧张、国内芯片供应受限的情况下，为中国开发者提供了在有限计算和资金资源条件下的创新路径。
公司近期上线了八个基础模型，包括上月发布的V3新版本（V3.2和V3.2-Speciale）。
尽管外界猜测V4或R2可能在农历新年发布，业内人士认为不会像去年R1发布那样造成轰动，但更重要的是推动AI技术普及到大众手中。

英国《自然》杂志上月将DeepSeek创始人梁文峰评为“2025年塑造科学的十大人物”之一，肯定了R1发布对AI行业的冲击，表明美国在AI上的领先优势并不像许多专家想象的那么遥远。#烽火问鼎计划#

发布于江苏