#杭州团队将DeepSeek的Engram应用到生物领域#
前面DeepSeek 发布了一项名为 Engram(条件记忆)的技术,它的核心思想很简单:把模型之前需要死记硬背的常识和固定知识,做成一个外挂的记忆库。
最近在杭州的一支研发团队,推出 Gengram(Genomic Engram)模块,把Engram搬进了生物领域的基因组世界。
目前主流的基因组基础模型(Genomic Foundation Models, GFMs),如 Deepmind 的 AlphaGenome 等,普遍采用一种叫「单碱基分词」的策略,也就是把 DNA 序列拆成一个个单独的字母(A/T/C/G)来处理。
精度可以,但是效率低,也容易出错。
Gengram结合了Engram的核心特性:条件记忆(Conditional Memory)、门控机制(Gating Mechanism)、哈希嵌入表(Hash Embedding Table)
构建了一个可微分的哈希表,存储所有长度为 1 到 6 的 DNA 片段(称为 k-mer,如「ATG」、「CGTA」)对应的语义向量。
模型可以结合上下文语境自主决定何时查记忆库:在遇到外显子、启动子等关键 Motif 区域时激活检索功能;在通过非编码背景区域时关闭检索,依赖推理,优化资源。
这个门控目前已经掌握了「什么时候该查询参考资料,什么时候该独立思考」的判断能力。
同时,剪接位点预测 AUC 提升了 16.1%(从 0.776 到 0.901),表观遗传预测任务(H3K36me3) AUC 提升了 22.6% (从 0.656 到 0.804)。
较小的参数和激活也有很强的精度,而且这玩意通用性很强。
无论采用何种注意力机制变体,Gengram 均能在有效降低训练损失的同时,显著加速模型收敛。特别是针对 MoE 架构中专家负载失衡这一顽疾,Gengram 通过吸收局部高频噪声,显著改善了专家负载均衡,实现了模型性能与架构效率的协同跨越。
最牛逼的是,模型开始「涌现」出对 DNA 物理本质的理解。
