宝玉xp 24-06-03 01:32
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

在 X 上看到一条很好的开始关于长上下文建模的LLM研究的建议,简单来说就是多用多体验,感受其优缺点。另外刘江老师的建议很很好:
”不要总是与ta交流自己比较擅长的领域,然后就走开了。多问自己不那么擅长的问题,你会发现ta远远超过你身边能找到的人类老师。“

以下为原推翻译:

***

几位一年级的博士生问我如何开始关于长上下文建模的LLM研究。我第一个建议——虽然有点不寻常——是*不要*阅读任何关于长上下文的论文,而是与模型对话。

- 找到教科书、课程幻灯片、财务报告、小说、非小说类书籍等任何长篇文档,与模型对话
- 连续两周,每天从早上打开电脑后的第一件事,到晚上睡觉前的最后一件事,都与模型对话
- 提出你能想到的每一个问题,比如PCA是什么?它与SVD有何区别?书中的哪一部分描述了这两者?书中具体怎么说的?
- 与所有你能接触到的模型对话,如GPT、Gemini、Claude、Llama等
- 持续两周,不做研究,不看论文,不上arxiv,只与模型对话
- 在这个过程中,持续观察模型的表现,发现它们的问题,思考为什么模型会这样表现

我发现,经过这个过程的人,对问题的理解水平与那些只读论文的人有着根本性的不同😉

发布于 美国