蚁工厂 26-01-08 08:37
微博认证:科技博主

Andrej Karpathy 之前深受好评的教学项目nanochat 更新! 提出了miniseries:
github.com/karpathy/nanochat/discussions/420

nanochat 项目的原始目标是“花100美元能买到的最好的ChatGPT。”
现在Andrej Karpathy把目标从“我要训练一个预算内的最强模型” 改为了 “我要训一整套由一个旋钮控制的模型家族”,旋钮就是你愿意花的总算力(compute/FLOPs),并且期望算力越多→效果单调更好。

"理解 LLM 的正确方式是:你优化的不是某一个特定模型,而是一整个由一个“拨盘”控制的模型家族——这个拨盘就是你愿意花的算力。随着你把算力拨盘往上拧,你应该得到单调更好的结果。这样你才能更严谨地研究 scaling laws(缩放定律);而且最终也正是它,让你有信心在你为“那次大训练”掏钱时,外推(extrapolation)是靠谱的,你的钱不会白花。nanochat 第一次公开发布时,我重点放在能跑通端到端的流水线:把训练 LLM 的各个阶段都串起来完整跑一遍。现在在前面 YOLO(“先冲了再说”)跑了几次之后,我回过头来把之前快速略过的一些部分补齐——当然先从预训练开始,因为预训练既最吃算力,也最关键:它是这些模型里智能与知识的基础。"

#科技先锋官##AI创造营#

发布于 山东