哈勃观察员
26-05-22 21:31 微博认证:科学科普博主 头条文章作者

阻止AI走向“崩溃”:应对人类数据枯竭的办法!

随着人工智能系统以前所未有的速度演进,一个日益迫近的危机正浮出水面——支撑大型语言模型(LLM)的人类生成数据即将耗尽。科学家警告,最快到今年年底,高质量的人类数据就可能枯竭。届时,AI将被迫依赖自身生成的合成信息进行训练,从而引发一种名为“模型崩溃”的危险现象——AI会逐渐胡言乱语,回复中充满荒诞不经的编造与错误。

伦敦国王学院教授亚瑟·鲁迪形象地描述了这一威胁:“如果你在医院里用AI分析脑部扫描来发现癌症,而训练中出现了模型崩溃,这些机器就可能误诊患者。”模型崩溃分为两个阶段——早期,AI丧失处理罕见信息的能力,输出变得平淡无奇、缺乏真实感;晚期,则彻底沦为毫无意义的胡言乱语。
然而,一项由伦敦国王学院、挪威科技大学及阿卜杜斯·萨拉姆国际理论物理中心共同完成的研究,于5月14日发表在《物理评论快报》( Physical Review Letters)上,带来了令人振奋的突破。研究团队发现,即便在所有其他数据均由AI生成的情况下,只需在训练数据中加入一个由人类制作的、真实且可独立验证的数据点,就能有效阻止模型崩溃。

这一发现的关键在于,研究人员没有直接陷入庞大复杂的大语言模型泥潭,而是采用了在分析上更易于处理的指数族小型模型。通过这种方法,他们得以看清崩溃的成因与机理。鲁迪解释,这就像在AI的“闭环自噬”训练中,注入一针来自真实世界的“活水”——一个与“真实值”挂钩的人类数据点,就能平滑掉代际之间积累的偏差与失真。

虽然目前尚未在实际部署的AI系统中出现全面崩溃的案例,但任何用过ChatGPT或Gemini的人,都大概率见识过那些或轻微错误、或彻底胡说的“幻觉”。鲁迪希望,这项研究能为AI行业制定基本规则,防止灾难性局面的发生。下一步,团队将把这一方法应用到更大、更复杂的模型中,验证其普适性。他总结道:“开发类似下一代ChatGPT的工程师,可以利用我们的发现,打造出不会崩溃的模型。”
#热门微博# #科学新闻# #人工智能# #哈勃观察员[超话]#

发布于 广东