#DeepSeek下个王炸是什么#
DeeoSeek 2月13日上线V4 Lite版,上下文拉到100万tokens,是上一代的7倍。一本《三体》也就90万字,现在AI一次能吞下整套。实测代码生成快了,长对话也不容易断片。
看样子,年前应该不会放大招了。
业内普遍认为,真正的王炸是传闻中的V4满血版。野村证券刚发研报,预测V4会把去年两篇论文的技术——mHC和Engram——全塞进去。
mHC优化层间信息流动,让超深网络训练不崩;Engram把百亿参数嵌入表卸载到廉价内存,释放昂贵算力。一套组合拳下来,参数直奔1.5万亿,是V3的两倍多,成本还能压住。
更有意思的是,V3.2已经把Agent能力拉满。DSA稀疏注意力把长文本推理成本打下来,强化学习预算超预训练成本10%。这意味着什么?模型开始从“会聊天”转向“能办事”——规划行程、调用工具、多轮执行,不再是Demo,是真能当劳动力用。
春节前知乎有人吐槽V3.2变冷漠了。其实不是它高冷,是它在从“知心伙伴”转向“靠谱执行者”。这个转型需要代价。
一年前R1靠低成本一夜刷屏。一年后的今天,DeepSeek已经更新四次。下个王炸会是什么?可能是1.5万亿参数的V4,也可能是多模态,也可能是让Agent真正跑起来的系统级能力。
春节还没过完,等等看。#过个有AI年##HOW I AI#
发布于 广东
