LLM Primer

大语言模型入门 · 2018-2026

什么是 LLM

大语言模型（Large Language Model）通过在海量文本上训练，学习理解和生成人类语言。核心思想很简单：给定上文，预测下一个词。

参数规模从几十亿到上万亿。当规模足够大时，模型会涌现出推理、编程等能力。

2017 年，Google 发表《Attention Is All You Need》，提出 Transformer 架构。其核心是 Self-Attention（自注意力机制），让模型能理解文本中词与词之间的关系，无论距离多远。

现代 LLM（GPT 系列、Claude、Gemini 等）都基于此架构，通常只使用 Decoder 部分，专注于生成能力。

从 BERT 到 GPT-4，从 ChatGPT 到 DeepSeek R1，探索 LLM 发展的完整历程。

1 Token · Embedding · Attention

2 关键论文

3 使用 API · 本地部署

4 RAG · Agent · Fine-tuning

Q: LLM 如何"思考"？
LLM 基于统计规律预测下一个词，但大规模训练后涌现出推理等类智能行为。

Q: 开源 vs 商业 API？
商业 API（GPT-4、Claude）性能最强；开源模型（LLaMA、Qwen）可自部署，成本更低。