大语言模型入门 · 2018-2026
大语言模型(Large Language Model)通过在海量文本上训练,学习理解和生成人类语言。核心思想很简单:给定上文,预测下一个词。
参数规模从几十亿到上万亿。当规模足够大时,模型会涌现出推理、编程等能力。
2017 年,Google 发表《Attention Is All You Need》,提出 Transformer 架构。其核心是 Self-Attention(自注意力机制),让模型能理解文本中词与词之间的关系,无论距离多远。
现代 LLM(GPT 系列、Claude、Gemini 等)都基于此架构,通常只使用 Decoder 部分,专注于生成能力。
从 BERT 到 GPT-4,从 ChatGPT 到 DeepSeek R1,探索 LLM 发展的完整历程。
Q: LLM 如何"思考"?
LLM 基于统计规律预测下一个词,但大规模训练后涌现出推理等类智能行为。
Q: 开源 vs 商业 API?
商业 API(GPT-4、Claude)性能最强;开源模型(LLaMA、Qwen)可自部署,成本更低。