大模型安全锁系于单个神经元

【大模型的安全锁，可能只拴在一个神经元上】

我们通常以为，大模型的安全机制是网络中多个神经元齐心协力来维护的。但近日，Apple 研究者在 arXiv 上发布了一项研究，发现真实情况可能并非如此：在 Qwen3、Llama-3.1 等多个开源模型中，某些单个神经元会强烈参与“是否拒答”的判断。研究者在白盒条件下干预这些神经元后，模型的安全拒答能力会明显下降。这说明大模型的安全可能维系在少数几个神经元上，这对开源模型是个不好的消息，因为只要打开这个神经元，就可以让大模型随意吐露危险信息了。

参考文献：Kazemi H, Chegini A, Safi M. A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models[J]. arXiv preprint arXiv:2605.08513, 2026.
#人工智能##ai创造营##大模型#

发布于重庆