了解这些论文,你就能理解 LLM 的发展脉络和核心技术。
奠基之作
1. Attention Is All You Need (2017)
- 作者:Google Brain (Vaswani et al.)
- 贡献:提出 Transformer 架构,取代 RNN/LSTM
- 核心观点:只用 Attention 机制,不需要循环或卷积
- 影响:所有现代 LLM 的基石
阅读论文 →
如果只读一篇论文,选这篇。理解了 Transformer,就理解了一切。
规模化的证明
2. Language Models are Few-Shot Learners - GPT-3 (2020)
- 作者:OpenAI (Brown et al.)
- 贡献:证明规模化预训练的威力
- 规模:175B 参数,当时的记录
- 核心发现:足够大的模型可以通过"提示"完成新任务,无需微调
阅读论文 →
对齐与安全
3. Training Language Models to Follow Instructions - InstructGPT (2022)
- 作者:OpenAI (Ouyang et al.)
- 贡献:引入 RLHF(人类反馈强化学习)
- 方法:SFT → Reward Model → PPO
- 核心观点:对齐人类意图比单纯提升能力更重要
阅读论文 →
4. Constitutional AI: Harmlessness from AI Feedback (2023)
- 作者:Anthropic (Bai et al.)
- 贡献:用 AI 反馈替代人类反馈(更可控)
- 方法:RLAIF(AI 反馈强化学习)
- 影响:Claude 系列的核心技术
阅读论文 →
开源模型
5. LLaMA: Open and Efficient Foundation Language Models (2023)
- 作者:Meta (Touvron et al.)
- 贡献:证明"小而精"路线可行
- 规模:7B-65B,13B 超越 175B GPT-3
- 影响:引发开源社区爆发
阅读论文 →
6. Llama 2: Open Foundation and Fine-Tuned Chat Models (2023)
- 作者:Meta (Touvron et al.)
- 贡献:开源模型的 ChatGPT 替代品
- 改进:更长上下文、Grouped Query Attention、RLHF
- 影响:开源社区的标准
阅读论文 →
高效架构
7. Mixtral of Experts (2023)
- 作者:Mistral AI
- 贡献:开源 MoE(混合专家)模型
- 架构:8×7B MoE,每次只激活 2 个专家(13B 参数,12B 激活)
- 影响:MoE 架构普及
阅读论文 →
8. Mixture-of-Experts Meets Instruction Tuning (2024)
- 作者:DeepSeek
- 贡献:MoE + 激进的辅助损失
- 架构:67B 总参数,37B 激活
- 影响:开源 MoE 最佳实践
阅读论文 →
长上下文
9. Effective Long-Context Scaling (2024)
- 作者:Google (Together)
- 贡献:如何有效训练长上下文模型
- 发现:直接扩展到 1M+ 上下文是可行的
阅读论文 →
微调方法
10. LoRA: Low-Rank Adaptation of Large Language Models (2021)
- 作者:Microsoft (Hu et al.)
- 贡献:高效微调方法
- 核心:冻结原模型,只训练低秩矩阵
- 影响:最流行的微调方法
阅读论文 →
11. QLoRA: Efficient Finetuning of Quantized LLMs (2023)
- 作者:Washington (Dettmers et al.)
- 贡献:LoRA + 4bit 量化
- 影响:单卡可微调 65B 模型
阅读论文 →
阅读建议
- 不要逐字逐句读:先理解 Abstract 和 Introduction
- 看架构图:图比文字更直观
- 跳过数学:第一次了解概念即可,细节可以后来补
- 关注实验结果:Table 1 通常是最重要的
- 结合代码:Hugging Face 有很多实现
进阶阅读
论文资源