杭州团队研发Gengram模块

#杭州团队将DeepSeek的Engram应用到生物领域#

前面DeepSeek 发布了一项名为 Engram（条件记忆）的技术，它的核心思想很简单：把模型之前需要死记硬背的常识和固定知识，做成一个外挂的记忆库。

最近在杭州的一支研发团队，推出 Gengram（Genomic Engram）模块，把Engram搬进了生物领域的基因组世界。

目前主流的基因组基础模型（Genomic Foundation Models, GFMs），如 Deepmind 的 AlphaGenome 等，普遍采用一种叫「单碱基分词」的策略，也就是把 DNA 序列拆成一个个单独的字母（A/T/C/G）来处理。

精度可以，但是效率低，也容易出错。

Gengram结合了Engram的核心特性：条件记忆（Conditional Memory）、门控机制（Gating Mechanism）、哈希嵌入表（Hash Embedding Table）

构建了一个可微分的哈希表，存储所有长度为 1 到 6 的 DNA 片段（称为 k-mer，如「ATG」、「CGTA」）对应的语义向量。

模型可以结合上下文语境自主决定何时查记忆库：在遇到外显子、启动子等关键 Motif 区域时激活检索功能；在通过非编码背景区域时关闭检索，依赖推理，优化资源。

这个门控目前已经掌握了「什么时候该查询参考资料，什么时候该独立思考」的判断能力。

同时，剪接位点预测 AUC 提升了 16.1%（从 0.776 到 0.901），表观遗传预测任务（H3K36me3） AUC 提升了 22.6% （从 0.656 到 0.804）。

较小的参数和激活也有很强的精度，而且这玩意通用性很强。

无论采用何种注意力机制变体，Gengram 均能在有效降低训练损失的同时，显著加速模型收敛。特别是针对 MoE 架构中专家负载失衡这一顽疾，Gengram 通过吸收局部高频噪声，显著改善了专家负载均衡，实现了模型性能与架构效率的协同跨越。

最牛逼的是，模型开始「涌现」出对 DNA 物理本质的理解。

发布于广东