【对大模型来说,规模就是一切吗?】
支持继续扩大规模的观点:
- 目前为止,模型规模的扩大带来了可测量的性能提升,且表现一致。8个数量级的计算量增长带来了可预测的性能提升。
- 比较小的规模扩大(100倍)就带来了质的飞跃,如GPT-3到GPT-4的进步。完全有望再扩大10,000倍。
- 算法进步、芯片进步可大幅提升计算效率,释放更多规模扩大空间。
- 自训练可以解决数据量不足问题,类似人脑进化。
- 模型开始展现“融会贯通”的迹象,这表明其在建立对世界的理解。
质疑继续扩大规模的观点:
- 可用高质量语言数据不足,要达目标计算量需求数据量大大不够。
- 自训练存在评价指标难题和计算量难题,目前没有证据表明其可行。
- 现有数据复现不出人类智能水平,更大数据未必有效。
- 主流基准存在可靠性问题,表现提升不一定反映真正的进步。
- 模型对世界的“理解”仅仅是压缩表达,与人类智能不同。
总结:
- 规模扩大具有一定可能性,但也面临数据量、评价指标等问题。
- 自训练的可行性至关重要,如果不可行,将遇到严重瓶颈。
- 目前公开研究还不足,内部研究可能改变时间线预期。
- 需要更多证据才能确定规模扩大的前景。
《Will scaling work? - by Dwarkesh Patel - Dwarkesh Podcast》 http://t.cn/A6ljJADr #机器学习# #人工智能#
发布于 北京
