Skip to content

[toc]

LLM (Large Language Model,大语言模型) 是基于深度学习的大规模概率生成模型

1. LLM 的技术本质

LLM 是以 Transformer 架构为基础,通过在超大规模无标签文本上进行**自监督学习(Self-supervised Learning)**得到的深度神经网络

2. LLM 的核心工作流水线

一个成熟的商业级 LLM(如 GPT-4, Llama 3)通常经历三个关键阶段:

阶段名称目标产出
1. Pre-training预训练学习海量人类知识和语言规律(如百科、代码)。基座模型 (Base Model)
2. SFT指令微调教会模型如何理解指令、进行对话和遵循格式。指令模型 (Instruct Model)
3. RLHF对齐 (Alignment)通过人类反馈强化学习,确保回答符合人类价值观与安全性。聊天模型 (Chat Model)

3. 核心参数

在利用 LangChain 或 MCP 调用 LLM 时,你需要通过以下参数控制其行为:

  • Context Window (上下文窗口):模型一次能“阅读”的最大 Token 数(如 128k)。超出部分会被舍弃,导致 AI “失忆”
  • Temperature (核采样温度):控制生成的确定性
    • Low (0-0.3):严谨、确定。适用于代码编写、数据提取
    • High (0.7-1.0):随机、创意。适用于文案创作、头脑风暴
  • Token (权杖/词元):LLM 处理的基本单位。通常 1000 个 Token 约等于 750 个英文单词或 500 个汉字。这是 API 计费性能计算的核心指标

4. LLM 在现代架构中的定位

在当前流行的 Agent (智能体) 架构中,LLM 不再承担所有工作,而是作为“中央处理器”:

  1. 逻辑调度 (Reasoning):利用 LLM 拆解复杂任务
  2. 知识获取 (RAG):通过向量检索补充 LLM 的时效性空白
  3. 动作执行 (Skill/MCP):通过 Function Calling 驱动外部工具