蚁工厂 25-07-21 08:52
微博认证:科技博主

一篇长文,介绍大语言模型的演进(主要是自2017年 Transformer 架构被引入以来的演进)
goyalpramod.github.io/blogs/evolution_of_LLMs/
这篇文章主要探讨了自2017年以来语言模型的演变历程,重点介绍了Transformer架构的引入以及随后在自然语言处理领域引发的数学基础、架构创新和训练突破。文章详细分析了Transformer、RLHF(基于人类偏好的强化学习)、PPO(近端策略优化)和MoE(混合专家模型)等关键技术和理论,并探讨了BERT、GPT-1等模型的创新之处。
#AI创造营##微博兴趣创作计划#

发布于 山东