LLM是什么？

[toc]

LLM (Large Language Model，大语言模型) 是基于深度学习的大规模概率生成模型

1. LLM 的技术本质

LLM 是以 Transformer 架构为基础，通过在超大规模无标签文本上进行**自监督学习（Self-supervised Learning）**得到的深度神经网络

一个成熟的商业级 LLM（如 GPT-4, Llama 3）通常经历三个关键阶段：

阶段	名称	目标	产出
1. Pre-training	预训练	学习海量人类知识和语言规律（如百科、代码）。	基座模型 (Base Model)
2. SFT	指令微调	教会模型如何理解指令、进行对话和遵循格式。	指令模型 (Instruct Model)
3. RLHF	对齐 (Alignment)	通过人类反馈强化学习，确保回答符合人类价值观与安全性。	聊天模型 (Chat Model)

在利用 LangChain 或 MCP 调用 LLM 时，你需要通过以下参数控制其行为：

Context Window (上下文窗口)：模型一次能“阅读”的最大 Token 数（如 128k）。超出部分会被舍弃，导致 AI “失忆”
Temperature (核采样温度)：控制生成的确定性
- Low (0-0.3)：严谨、确定。适用于代码编写、数据提取
- High (0.7-1.0)：随机、创意。适用于文案创作、头脑风暴
Token (权杖/词元)：LLM 处理的基本单位。通常 1000 个 Token 约等于 750 个英文单词或 500 个汉字。这是 API 计费和性能计算的核心指标

在当前流行的 Agent (智能体) 架构中，LLM 不再承担所有工作，而是作为“中央处理器”：