徐亦达教授 25-12-24 16:45

初步科研想法 (四) 双维选择:将稀疏性从序列扩展至注意力头

利用 DeepSeek 的 Lightning Selector,我们可以识别当前 token 与所有前序 token 之间的稀疏关系。这可以被视为在 token序列维度上筛选相关信息。然而,我们是否也可以追踪不同注意力头(Heads)之间自注意力分数的相似性?例如,如果 Q、K、V 在几个头上的演变轨迹表现得非常相似,我们就可以简单地选择其中一个作为代表。这种方法能够减少冗余,并从注意力头维度节省计算量。此类优化可以通过在机制中引入行列式点过程(Determinantal Point Process, DPP)来实现。 #深度学习(Deep Learning) ##人工智能##deepseek  ##大模型#

发布于 广东