#模型时代##ai创造营# Sebastian Raschka:我正在阅读的2025年一季度关键AI论文
看到"Build a Large Language Model From Scratch",《从零开始训练一个大模型》作者Sebastian Raschka刚分享了他眼中今年的关键AI论文,分享一下。
AI的演进速度太快了。他原来还是按年总结,现在改成按季度了。(这是他总结的2024年关键AI论文:http://t.cn/A6uef89n )
***
1、论文题目:SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
SWE-RL:通过开放软件演化的强化学习提升大语言模型推理能力
概要:该论文探讨如何利用开放软件演化环境中的强化学习方法来增强大语言模型的推理能力。
论文链接:arxiv.org/abs/2502.18449
2、论文题目:Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
让LoRA再次伟大:通过自适应奇异值和混合专家优化对齐提升LoRA
概要:该论文提出通过自适应奇异值和混合专家优化对齐技术来增强LoRA微调方法的效果。
论文链接:arxiv.org/abs/2502.16894
3、论文题目:Thus Spake Long-Context Large Language Model
长上下文大语言模型如是说
概要:该论文探讨了长上下文大语言模型的能力、局限性和行为特征。
论文链接:arxiv.org/abs/2502.17129
4、论文题目:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
Logic-RL:通过基于规则的强化学习释放大语言模型的推理能力
概要:该论文提出了一种基于规则的强化学习方法来增强大语言模型的逻辑推理能力。
论文链接:arxiv.org/abs/2502.14768
5、论文题目:S*: Test Time Scaling for Code Generation
S*:代码生成的测试时间缩放
概要:该论文提出了一种名为S*的测试时间缩放方法,用于提高代码生成模型的性能。
论文链接:arxiv.org/abs/2502.14382
6、论文题目:MLGym: A New Framework and Benchmark for Advancing AI Research Agents
MLGym:用于推进AI研究智能体的新框架和基准
概要:该论文介绍了MLGym,一个旨在促进AI研究智能体发展的新框架和评估基准。
论文链接:arxiv.org/abs/2502.14499
7、论文题目:Optimizing Model Selection for Compound AI Systems
复合AI系统的模型选择优化
概要:该论文研究了如何优化复合AI系统中的模型选择,以提高整体系统性能。
论文链接:arxiv.org/abs/2502.14815
8、论文题目:Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
内部思考Transformer:利用动态深度缩放促进自适应内部思考
概要:该论文提出了一种利用动态深度缩放来增强Transformer模型内部思考能力的方法。
论文链接:arxiv.org/abs/2502.13842
9、论文题目:NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions
自然推理:使用280万个具有挑战性问题的真实环境推理
概要:该论文介绍了一个包含280万个具有挑战性问题的大规模数据集,用于评估模型在真实环境中的推理能力。
论文链接:arxiv.org/abs/2502.13124
10、论文题目:How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training
大语言模型如何获取新知识?持续预训练的知识电路视角
概要:该论文从知识电路的角度研究了大语言模型在持续预训练过程中如何获取新知识。
论文链接:arxiv.org/abs/2502.11196
10、论文题目:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
SWE-Lancer:前沿大语言模型能否通过真实世界的自由职业软件工程赚取100万美元?
概要:该论文探究了前沿大语言模型在真实世界自由职业软件工程任务中的赚钱能力。
论文链接:arxiv.org/abs/2502.12115
11、论文题目:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力
概要:该论文提出了一种与硬件对齐且原生可训练的稀疏注意力机制。
论文链接:arxiv.org/abs/2502.11089
12、论文题目:ReLearn: Unlearning via Learning for Large Language Models
ReLearn:通过学习实现大语言模型的遗忘
概要:该论文提出了一种名为ReLearn的方法,通过学习过程实现大语言模型的有效遗忘。
论文链接:arxiv.org/abs/2502.11190
13、论文题目:Large Language Diffusion Models
大语言扩散模型
概要:该论文探讨了将扩散模型技术应用于大语言模型的方法和效果。
论文链接:arxiv.org/abs/2502.09992
14、论文题目:Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging - An Open Recipe
通过模型合并在一天内将特定语言的大语言模型适配为推理模型 - 一个开放配方
概要:该论文提供了一个开放方法,展示如何在一天内通过模型合并技术将特定语言的大语言模型转变为推理模型。
论文链接:arxiv.org/abs/2502.09056
15、论文题目:The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
过度思考的危险:检验智能体任务中的推理-行动困境
概要:该论文研究了智能体在执行任务时过度推理可能导致的行动困境和效率问题。
论文链接:arxiv.org/abs/2502.08235
16、论文题目:Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance
Fino1:推理增强型大语言模型在金融领域的迁移能力
概要:该论文研究了推理增强型大语言模型在金融领域应用的迁移能力和效果。
论文链接:arxiv.org/abs/2502.08127
论文题目:InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU
17、InfiniteHiP:在单个GPU上将语言模型上下文扩展至300万个token
概要:该论文提出了一种名为InfiniteHiP的方法,能在单GPU设备上处理高达300万token的语言模型上下文。
论文链接:arxiv.org/abs/2502.08910
论文题目:Distillation Scaling Laws
18、蒸馏缩放定律
概要:该论文研究了模型蒸馏过程中的缩放规律,揭示了蒸馏效果与模型规模之间的关系。
论文链接:arxiv.org/abs/2502.08606
论文题目:Auditing Prompt Caching in Language Model APIs
19、审计语言模型API中的提示缓存
概要:该论文对语言模型API中的提示缓存机制进行了审计,分析其影响和潜在问题。
论文链接:arxiv.org/abs/2502.07776
论文题目:LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
20、大语言模型可以轻松从示范结构而非内容中学习推理!
概要:该论文发现大语言模型主要从示范的结构而非具体内容中学习推理能力。
论文链接:arxiv.org/abs/2502.07374
论文题目:ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
21、ReasonFlux:通过缩放思维模板实现层次化大语言模型推理
概要:该论文提出了ReasonFlux方法,通过缩放思维模板来实现大语言模型的层次化推理。
论文链接:arxiv.org/abs/2502.06772
论文题目:On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
22、大语言模型中思维的涌现 I:寻找正确的直觉
概要:该论文研究了大语言模型中思维能力的涌现现象,尝试寻找理解这一过程的正确直觉。
论文链接:arxiv.org/abs/2502.06773
23、论文题目:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
10亿参数的大语言模型能否超越4050亿参数的模型?重新思考计算最优的测试时间缩放
概要:该论文重新审视了测试时间缩放策略,探讨小型模型通过优化是否能超越超大型模型的性能。
论文链接:arxiv.org/abs/2502.06703
24、论文题目:Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
探索结果奖励在学习数学推理中的极限
概要:该论文探讨了基于结果奖励的学习方法在数学推理任务中的极限和局限性。
论文链接:arxiv.org/abs/2502.06781
论文题目:LM2: Large Memory Models
25、LM2:大记忆模型
概要:该论文提出了具有增强记忆能力的大型语言模型架构。
论文链接:arxiv.org/abs/2502.06049
论文题目:QuEST: Stable Training of LLMs with 1-Bit Weights and Activations
26、QuEST:使用1比特权重和激活值稳定训练大语言模型
概要:该论文提出了QuEST方法,实现了使用1比特权重和激活值对大语言模型进行稳定训练。
论文链接:arxiv.org/abs/2502.05003
27、论文题目:VideoRoPE: What Makes for Good Video Rotary Position Embedding?
VideoRoPE:什么构成了良好的视频旋转位置编码?
概要:该论文研究了适用于视频数据的旋转位置编码技术及其特性。
论文链接:arxiv.org/abs/2502.05173
28、论文题目:Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
通过潜在推理扩展测试时计算:递归深度方法
概要:该论文提出了一种基于递归深度的潜在推理方法,用于扩展模型测试时的计算能力。
29、论文链接:arxiv.org/abs/2502.05171
论文题目:Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
退一步,跃千里:自回溯技术增强语言模型的推理能力
概要:该论文提出了一种自回溯技术,通过后退反思来增强语言模型的推理能力。
论文链接:arxiv.org/abs/2502.04404
30、论文题目:Training Language Models to Reason Efficiently
训练语言模型进行高效推理
概要:该论文研究了如何训练语言模型以实现更高效的推理过程。
论文链接:arxiv.org/abs/2502.04463
31、论文题目:Advancing Reasoning in Large Language Models: Promising Methods and Approaches
推进大语言模型的推理能力:有前景的方法和途径
概要:该论文综述了增强大语言模型推理能力的多种有前景的方法和研究途径。
论文链接:arxiv.org/abs/2502.03671
32、论文题目:Teaching Language Models to Critique via Reinforcement Learning
通过强化学习教导语言模型进行批判
概要:该论文探索了使用强化学习方法训练语言模型获得批判能力的方法。
论文链接:arxiv.org/abs/2502.03492
33、论文题目:Enhancing Reasoning to Adapt Large Language Models for Domain-Specific Applications
增强推理以适应大语言模型用于特定领域应用
概要:该论文研究了如何通过增强推理能力来使大语言模型更好地适应特定领域的应用。
论文链接:arxiv.org/abs/2502.04384
34、论文题目:LIMO: Less is More for Reasoning
LIMO:推理中的少即是多
概要:该论文提出了LIMO方法,展示了如何通过减少而非增加某些元素来提高模型的推理能力。
论文链接:arxiv.org/abs/2502.03387
35、论文题目:Demystifying Long Chain-of-Thought Reasoning in LLMs
揭秘大语言模型中的长思维链推理
概要:该论文分析并解释了大语言模型中长思维链推理的工作机制和特性。
论文链接:arxiv.org/abs/2502.03373
36、论文题目:CoAT: Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning
CoAT:关联思维链框架增强大语言模型推理
概要:该论文提出了CoAT框架,通过关联思维链来增强大语言模型的推理能力。
论文链接:arxiv.org/abs/2502.02390
37、论文题目:The Differences Between Direct Alignment Algorithms are a Blur
直接对齐算法之间的差异是模糊的
概要:该论文指出不同直接对齐算法之间的差异实际上是模糊不清的,可能本质上相似。
论文链接:arxiv.org/abs/2502.01237
38、论文题目:Scaling Embedding Layers in Language Models
语言模型中嵌入层的缩放
概要:该论文研究了如何有效缩放语言模型中的嵌入层以提高性能。
论文链接:arxiv.org/abs/2502.01637
39、论文题目:Competitive Programming with Large Reasoning Models
使用大型推理模型进行竞争性编程
概要:该论文探讨了大型推理模型在竞争性编程任务中的应用和表现。
论文链接:arxiv.org/abs/2502.06807
