OneFlow 26-02-13 16:00
微博认证:北京一流科技有限公司

#大模型日报# #ai前沿动态#

【Infusion:基于影响函数编辑训练数据重塑模型行为】

链接:http://t.cn/AXtLs7UL
论文概述:本文提出的INFUSION框架颠覆性地将影响函数从归因工具转变为编辑工具,通过对极少数训练文档进行微小、梯度引导的修改,即可高效、隐蔽地诱导模型产生目标行为,并反直觉地证明了这种“无痕”投毒不仅效果媲美显式注入,还能跨模型架构迁移,揭示了训练数据一个远比预想中更微妙和危险的攻击面。

发布于 云南