在 X 上看到一条很好的开始关于长上下文建模的LLM研究的建议，简单来说就是多用多体验，感受其优缺点。另外刘江老师的建议很很好：”不要总是与ta交流自己比较擅长的领域，然后就走开了。多问自己不那么擅长的问题，你会发现ta远远超过你身边能找到的人类老师。“以下为原推翻译：***几位一年级

在 X 上看到一条很好的开始关于长上下文建模的LLM研究的建议，简单来说就是多用多体验，感受其优缺点。另外刘江老师的建议很很好：
”不要总是与ta交流自己比较擅长的领域，然后就走开了。多问自己不那么擅长的问题，你会发现ta远远超过你身边能找到的人类老师。“

以下为原推翻译：

***

几位一年级的博士生问我如何开始关于长上下文建模的LLM研究。我第一个建议——虽然有点不寻常——是*不要*阅读任何关于长上下文的论文，而是与模型对话。

- 找到教科书、课程幻灯片、财务报告、小说、非小说类书籍等任何长篇文档，与模型对话
- 连续两周，每天从早上打开电脑后的第一件事，到晚上睡觉前的最后一件事，都与模型对话
- 提出你能想到的每一个问题，比如PCA是什么？它与SVD有何区别？书中的哪一部分描述了这两者？书中具体怎么说的？
- 与所有你能接触到的模型对话，如GPT、Gemini、Claude、Llama等
- 持续两周，不做研究，不看论文，不上arxiv，只与模型对话
- 在这个过程中，持续观察模型的表现，发现它们的问题，思考为什么模型会这样表现

我发现，经过这个过程的人，对问题的理解水平与那些只读论文的人有着根本性的不同😉

发布于美国