方也AIGC 26-01-21 11:32
微博认证:搞笑幽默博主

看到DeepSeek新模型的消息,我倒是想起了去年此时R1发布时的热闹。技术迭代的速度,有时真让人有种刚刚熟悉,又要重新认识的恍惚感。

从流出的信息看,Model1这次似乎在做一些“往回走”的调整。把维度从576缩回512,初看像是妥协,细想或许是为新硬件做的务实适配。就像给跑车换更宽的轮胎,不是为了缩小车身,而是为了在更强的引擎下抓地更稳。全面支持Blackwell架构,说明整个行业的基础设施正在经历一轮静默更替,模型的演进越来越离不开底层算力的协同进化。

真正让我感兴趣的是那些新机制,VVPA和Engram这类设计,听起来像是在解决大模型那些不声不响的痛点。比如长文本处理中位置信息的悄然衰减,就像人读长篇小说读到后半本,偶尔会模糊前半部分的情节关联。如果真能突破这个瓶颈,或许我们以后让AI处理数百页文档时,能少一些断片般的突兀。
#DeepSeek神秘模型Model1现身GitHub#

发布于 四川