【大模型的安全锁,可能只拴在一个神经元上】
我们通常以为,大模型的安全机制是网络中多个神经元齐心协力来维护的。但近日,Apple 研究者在 arXiv 上发布了一项研究,发现真实情况可能并非如此:在 Qwen3、Llama-3.1 等多个开源模型中,某些单个神经元会强烈参与“是否拒答”的判断。研究者在白盒条件下干预这些神经元后,模型的安全拒答能力会明显下降。这说明大模型的安全可能维系在少数几个神经元上,这对开源模型是个不好的消息,因为只要打开这个神经元,就可以让大模型随意吐露危险信息了。
参考文献:Kazemi H, Chegini A, Safi M. A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models[J]. arXiv preprint arXiv:2605.08513, 2026.
#人工智能##ai创造营##大模型#
发布于 重庆
