过来学习,复旦大学教授的关于大模型数据的分享
AI 整理了一下关键点和笔记:
数据质量成为瓶颈:AI发展已从模型架构竞赛转向数据精细化管理。尤其是后训练阶段,RL和思维链等高级任务对数据的“可验证性”和“认知深度”要求极高,低质量数据可能抵消模型进步。
领域融合加速:如Agentic AI与业务流程挖掘的结合,显示AI正深入垂直领域,需与专家知识耦合。这符合产业AI落地的务实需求。
效率驱动创新:语法筛选和推理优化凸显“降本增效”趋势,响应了算力成本和环保压力。
挑战与批判
数据偏见与认知局限:思维链数据失衡,可能固化模型在低阶任务的表现,阻碍创造性推理。需警惕数据集的“隐性偏差”。
RL的脆弱性:强调RL对数据噪声的敏感度,但这可能增加部署复杂度。在实际应用中,如何平衡“宁缺毋滥”与数据覆盖度,仍是难题。
技术鸿沟风险:流程挖掘和语法筛选等方法依赖专业工具,可能加剧资源不平等,中小企业难以跟进。 http://t.cn/EAfGzSt
发布于 北京
