爱可可-爱生活
26-05-24 05:24 微博认证:AI博主 2025微博新锐新知博主

[CL]《HRM-Text: Efficient Pretraining Beyond Scaling》G Wang, C Liu, C Wang, C Zhou… [Sapient Intelligence & MIT] (2026)

在高成本预训练领域,从零训练语言模型仍是少数机构的游戏。过去方法受困于海量文本与算力堆叠,本质原因是把知识记忆和任务执行混在一起训练。

本文的核心洞见是:把语言建模重新看作“读懂指令后完成回答”。由此,分层循环结构负责内部推理,响应-only损失与PrefixLM让训练信号只压向答案。

这项工作留下的遗产是:小预算也能进入基础模型预训练。它打开的新门是“结构+目标”替代蛮力扩张,但门槛是更大规模与事实覆盖仍未验证。

arxiv.org/abs/2605.20613 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京