人类数据防AI崩溃

阻止AI走向“崩溃”：应对人类数据枯竭的办法！

随着人工智能系统以前所未有的速度演进，一个日益迫近的危机正浮出水面——支撑大型语言模型（LLM）的人类生成数据即将耗尽。科学家警告，最快到今年年底，高质量的人类数据就可能枯竭。届时，AI将被迫依赖自身生成的合成信息进行训练，从而引发一种名为“模型崩溃”的危险现象——AI会逐渐胡言乱语，回复中充满荒诞不经的编造与错误。

伦敦国王学院教授亚瑟·鲁迪形象地描述了这一威胁：“如果你在医院里用AI分析脑部扫描来发现癌症，而训练中出现了模型崩溃，这些机器就可能误诊患者。”模型崩溃分为两个阶段——早期，AI丧失处理罕见信息的能力，输出变得平淡无奇、缺乏真实感；晚期，则彻底沦为毫无意义的胡言乱语。
然而，一项由伦敦国王学院、挪威科技大学及阿卜杜斯·萨拉姆国际理论物理中心共同完成的研究，于5月14日发表在《物理评论快报》（ Physical Review Letters）上，带来了令人振奋的突破。研究团队发现，即便在所有其他数据均由AI生成的情况下，只需在训练数据中加入一个由人类制作的、真实且可独立验证的数据点，就能有效阻止模型崩溃。

这一发现的关键在于，研究人员没有直接陷入庞大复杂的大语言模型泥潭，而是采用了在分析上更易于处理的指数族小型模型。通过这种方法，他们得以看清崩溃的成因与机理。鲁迪解释，这就像在AI的“闭环自噬”训练中，注入一针来自真实世界的“活水”——一个与“真实值”挂钩的人类数据点，就能平滑掉代际之间积累的偏差与失真。

虽然目前尚未在实际部署的AI系统中出现全面崩溃的案例，但任何用过ChatGPT或Gemini的人，都大概率见识过那些或轻微错误、或彻底胡说的“幻觉”。鲁迪希望，这项研究能为AI行业制定基本规则，防止灾难性局面的发生。下一步，团队将把这一方法应用到更大、更复杂的模型中，验证其普适性。他总结道：“开发类似下一代ChatGPT的工程师，可以利用我们的发现，打造出不会崩溃的模型。”
#热门微博# #科学新闻# #人工智能# #哈勃观察员[超话]#

发布于广东