AI学习 – 云夢情的鹈鹕镇小屋

本文最后更新于82 天前，其中的信息可能已经过时，如有错误请发送邮件到big_fw@foxmail.com

AI 大模型基础

什么是 AI 大模型（LLM）

LLM 是大语言模型（Large Language Model） 的简称，是基于海量文本数据训练的深度学习模型，核心通过学习人类语言的语法、语义、逻辑和知识，实现自然语言理解（NLU） 和自然语言生成（NLG） 能力。

核心特征：参数量超大（从百亿到万亿级）、训练数据覆盖多领域文本、基于 Transformer 架构（自注意力机制是核心）；
本质：通过统计规律和语义关联，对输入的语言进行概率化的合理续写，并非真正 “理解” 语言，是 “模式匹配 + 知识记忆” 的结合体。

Token 和上下文窗口

Token（令牌）

定义：大模型处理语言的最小单位，不是单纯的汉字 / 英文单词，一个汉字约 1-2 个 Token，一个英文单词约 1 个 Token，标点 / 空格也会占 Token；
作用：大模型的输入 / 输出均按 Token 计量，是模型计费、窗口限制的核心指标；
示例：“AI 大模型学习” 约 6 个 Token，“Hello World” 约 2 个 Token。

上下文窗口

定义：大模型能同时接收和处理的最大 Token 数量（输入 + 输出），是模型的 “记忆容量”；
分类：小窗口（如 GPT-3.5 4k）、中窗口（GPT-3.5 16k）、大窗口（Claude 3 Opus 200k+、GPT-4o 128k）；
关键：窗口越大，能处理的长文本（论文、书籍、合同）越多，多轮对话不易丢失信息，但推理速度会变慢，成本会升高。

5. 流式输出（SSE）

定义：服务器发送事件（Server-Sent Events），是大模型的一种输出方式，指模型将生成的内容按片段、实时推送给客户端，而非生成完整内容后一次性返回；
对比传统输出：传统输出是 “等待→一次性接收”，流式输出是 “边生成→边接收”；
核心优势：提升用户体验（减少等待感）、适配实时对话场景（如 ChatGPT 聊天框）、降低服务端内存压力；
技术要点：基于 HTTP 协议，单方向从服务端到客户端，支持持续数据传输，前端可实时渲染每一段输出内容。

Prompt Engineering（提示词工程）【必学】

1. 什么是 Prompt（提示词）

Prompt 是用户向大模型发出的指令 / 问题 / 提示信息，是大模型的 “输入依据”，本质是通过自然语言 / 结构化语言，引导大模型按预期完成任务（回答、创作、推理等）。

形式：可简单可复杂，简单如 “什么是 LLM？”，复杂如 “作为 Java 后端讲师，用通俗的语言讲解 RAG，分 3 点，每点配 1 个实际开发案例”；
核心：让大模型精准理解用户意图，是发挥大模型能力的关键，好的 Prompt 能大幅提升输出质量。

2. Prompt 的编写技巧

核心原则：清晰、具体、结构化、定角色，避免模糊、笼统的表述，以下是实操性技巧：

角色设定：给大模型指定具体角色，贴合任务场景（如 “作为资深 Java 架构师”“作为小学三年级语文老师”）；
任务描述：明确要做什么、输出形式、篇幅、风格（如 “写一篇 200 字的产品文案，风格活泼，适合小红书”）；
约束条件：明确禁忌、限制（如 “不使用专业术语”“分点作答，每点不超过 50 字”）；
结构化输入：用序号、分号、标题等让 Prompt 条理清晰，大模型更易识别逻辑；
反向示例：若有明确不想要的结果，可给出反例（如 “不要写成说明文，避免如下表述：xxx”）；
简洁性：在清晰的前提下，减少冗余信息，避免占用过多 Token。

3. Few-shot Learning（少样本学习）

定义：一种大模型的使用方式，指在 Prompt 中给出少量（1-5 个）“问题 – 答案” 的示例，让大模型模仿示例的逻辑 / 格式完成同类任务，无需额外训练；
核心：利用大模型的泛化能力，通过少量示例传递任务规则，解决 “零样本（无示例）下输出格式 / 逻辑不符预期” 的问题；
适用场景：格式固定的任务（如数据提取、分类、格式化输出）；
示例：任务是 “将水果名称按‘中文 – 英文’格式整理”，Prompt 中给出示例：1. 苹果 – Apple 2. 香蕉 – Banana，再让模型整理 “橙子、葡萄”。

4. Chain of Thought（思维链，COT）

定义：一种提升大模型逻辑推理能力的 Prompt 技巧，指在 Prompt 中引导大模型分步、逐步地展示推理过程，而非直接给出答案，让模型按 “思考步骤” 推导结果；
核心：契合人类的推理习惯，将复杂问题拆解为简单子问题，减少大模型的推理错误，尤其适用于数学计算、逻辑分析、问题求解等场景；
分类：
- 零样本 COT：仅在 Prompt 中加入引导语（如 “请分步思考，写出你的推理过程，最后给出答案”）；
- 少样本 COT：在 Prompt 中给出 “问题 – 分步推理 – 答案” 的示例，让模型模仿；
示例：任务是 “36+78-29=？”，引导语后模型输出：第一步，计算 36+78=114；第二步，计算 114-29=85；答案：85。

三、RAG 检索增强生成【必学】

1. 什么是 RAG

RAG 是检索增强生成（Retrieval-Augmented Generation） 的简称，是一种结合 “信息检索” 和 “大模型生成” 的技术方案，核心解决大模型知识截止、幻觉、专业知识不足三大痛点。

本质：大模型生成答案前，先从外部私有知识库 / 海量文档中检索与问题相关的信息，再基于检索到的精准信息 + 自身通用知识生成答案，而非仅靠模型自身训练的知识；
核心价值：
1. 无需重新训练大模型，低成本更新知识（适配最新信息 / 私有知识）；
2. 减少幻觉，让答案有事实依据（可追溯到检索的文档）；
3. 提升专业领域问题的回答准确性（如企业内部文档、行业论文、产品手册）。

2. RAG 的工作流程

RAG 分为离线构建知识库和在线问答两个核心阶段，整体流程共 6 步，环环相扣：

阶段 1：离线构建知识库（一次性操作，可更新）

文档采集：收集需要接入的文本数据（企业手册、论文、PDF、网页、Excel 等）；
文档预处理：对原始文档进行清洗（去水印、去冗余、格式转换）、切分（将长文档拆分为短文本片段，适配模型窗口）；
向量化编码：通过Embedding 模型将每个文本片段转换为向量（Embedding Vector）（计算机能理解的数值序列）；
向量入库：将生成的向量与对应的文本片段关联，存入向量数据库，建立索引。

阶段 2：在线问答（用户每次提问都执行）

问题检索：将用户的问题通过同一 Embedding 模型转换为向量，在向量数据库中按相似度匹配，检索出与问题最相关的 Top-N 文本片段；
生成答案：将检索到的文本片段作为上下文信息，与用户问题拼接成 Prompt，输入大模型，大模型基于这些精准信息生成答案，并可标注信息来源。

3. 向量数据库（Embedding）

（1）Embedding（嵌入 / 向量化）

定义：将非结构化数据（文本、图片、音频） 转换为高维稠密向量的过程，转换后的向量能表征数据的语义信息——语义越相似，向量的距离越近；
核心：Embedding 模型是 RAG 的核心组件，需与大模型适配（如中文场景用通义千问 Embedding、ChatGLM Embedding），避免语义表征偏差；
示例：“苹果是水果” 和 “香蕉是水果” 的向量距离，远小于 “苹果是水果” 和 “汽车是交通工具” 的向量距离。

（2）向量数据库

定义：专门用于存储、索引、检索向量的数据库，区别于传统关系型数据库（MySQL、PostgreSQL），核心支持相似度检索；
核心能力：高效的近邻检索（如余弦相似度、欧氏距离）、海量向量的快速查询、向量的增删改查；
主流产品：
- 开源：Milvus、Chroma、Pinecone（开源版）、FAISS（Facebook 的检索库）；
- 商用：阿里云向量数据库、腾讯云向量数据库、Pinecone（云服务）；
- 传统数据库扩展：PostgreSQL+pgvector 插件（轻量场景适配）。

4. 文档切分和索引

（1）文档切分

RAG 的核心关键步骤（直接影响检索和生成效果），指将长文档拆分为短的、语义完整的文本片段（称为 “Chunk”）。

切分原则：语义完整性优先，长度适配模型窗口—— 避免将一个完整的知识点拆分为多个 Chunk，同时 Chunk 长度不宜超过 Embedding 模型的最大处理长度；
常用方法：
- 固定长度切分：按固定 Token / 字符数切分（如 512Token / 个），简单易操作，适合结构化文档；
- 语义切分：按段落、标题、标点（如句号、分号）切分，结合语义边界，适合非结构化文档（如论文、书籍）；
- 重叠切分：切分后的相邻 Chunk 保留一定重叠部分（如 100Token），避免语义断裂；
切分粒度：一般建议 200-1000Token/Chunk，需根据实际场景调优。

（2）索引

定义：为向量数据库中的向量建立检索索引，目的是提升相似度检索的速度，避免海量向量下的全量遍历（效率极低）；
主流索引算法：HNSW（分层导航小世界，最常用）、IVF（倒排文件）、FAISS 的 IVF_FLAT 等；
核心：索引是 “以空间换时间”，需在检索速度和检索精度之间做平衡（索引越复杂，速度越慢，精度越高）。

四、AI Agent【建议学】

1. 什么是 AI Agent

AI Agent 是人工智能智能体的简称，是基于大模型的高阶应用形态，指一个能自主感知环境、理解任务、制定计划、调用工具、完成目标的智能系统，区别于大模型的 “被动响应”，AI Agent 具备主动性和自主性。

核心定位：大模型是 “大脑”，AI Agent 是 “大脑 + 手脚 + 决策系统”，让大模型从 “只会回答问题” 升级为 “能独立解决复杂问题”；
简单理解：把 AI Agent 看作一个自主工作的 “员工”，你只需给出 “目标”（如 “写一篇 Java 后端 RAG 实战的技术博客”），它会自主拆解任务、找资料、写内容、优化，无需你分步指令。

2. Agent 的核心能力

AI Agent 的核心是 **“大模型 + 工具 + 推理”** 的结合，两大核心能力缺一不可：

（1）工具调用（Tool Use）

定义：AI Agent 能识别任务需求，自主选择并调用外部工具，弥补大模型自身的能力短板（如实时信息、数据计算、专业操作）；
核心逻辑：大模型通过 Prompt 判断 “是否需要调用工具”“调用哪个工具”“传入什么参数”，工具执行后返回结果，大模型再基于结果继续处理；
主流工具类型：
- 信息检索：百度 / 谷歌搜索、API 接口（如天气、股票）；
- 数据计算：Excel、Python、计算器、SQL 查询；
- 专业操作：代码运行、画图工具、文档处理、邮件发送；
- 业务系统：企业内部 CRM、ERP、数据库；
技术要点：需为工具定义清晰的描述（功能、入参、出参），让大模型能精准识别工具的适用场景。

（2）多步推理（Multi-step Reasoning）

定义：AI Agent 能将复杂的单一目标，自主拆解为多个可执行的子任务，并按合理的顺序依次执行，最终完成总目标，是 Agent “自主性” 的核心体现；
核心逻辑：基于大模型的 COT 能力，结合任务目标，不断 “思考 – 拆解 – 执行 – 反馈 – 调整”，解决 “单步指令无法完成的复杂问题”；
示例：目标是 “分析 2025 年 Java 后端就业趋势，写一份 500 字的报告”，Agent 的推理步骤：1. 调用搜索引擎检索 2025 年 Java 后端就业相关数据；2. 检索 Java 后端主流技术栈的招聘需求；3. 整理检索到的核心信息；4. 按 “趋势 + 原因 + 建议” 的结构撰写报告；5. 优化报告语句，控制字数。

3. Multi-Agent 协作

（1）什么是 Multi-Agent

Multi-Agent 是多智能体协作，指将多个不同功能的 AI Agent 组合起来，每个 Agent 负责一个专属领域 / 任务，通过相互沟通、协作、分工，完成单一 Agent 无法解决的超复杂目标，核心是 “分工协作，优势互补”。

核心类比：像一个企业团队，有产品经理 Agent、开发工程师 Agent、测试工程师 Agent、运营 Agent，共同完成一个产品开发项目；也像一个科研团队，有文献检索 Agent、数据分析 Agent、论文撰写 Agent，共同完成一篇科研论文。

（2）Multi-Agent 核心协作模式

主流协作模式基于 “角色分工” 和 “任务流转”，以下是 3 种最常用的模式，可组合使用：

流水线模式（Pipeline）
- 逻辑：按固定的任务顺序，将总目标拆分为多个子任务，每个 Agent 负责一个子任务，上一个 Agent 完成后，将结果传递给下一个 Agent，直到完成总目标；
- 特点：流程固定、简单易实现，适合有明确执行顺序的任务（如写论文、做产品文案）；
- 示例：写技术博客→素材检索 Agent→内容创作 Agent→排版优化 Agent→审核校对 Agent。
主从模式（Master-Slave）
- 逻辑：设置一个主 Agent（Master） 和多个从 Agent（Slave）；Master 负责拆解总目标、分配子任务、协调进度、整合结果；Slave 负责执行具体的子任务，并将结果返回给 Master；
- 特点：主 Agent 统一调度，从 Agent 专注执行，适合任务拆解灵活、需要全局协调的复杂任务（如项目规划、数据分析报告）；
- 示例：电商活动策划→Master Agent（拆解任务：选品、定价、文案、推广）→Slave Agent（选品 Agent、定价 Agent、文案 Agent、推广 Agent）→Master Agent（整合所有方案，形成最终策划案）。
辩论模式（Debate）
- 逻辑：多个 Agent 围绕同一个问题 / 目标，从不同角度提出观点、分析方案、互相辩论，最终由一个裁判 Agent整合所有观点，形成最优解；
- 特点：多视角分析、结果更全面，适合需要深度思考、多方案对比的任务（如战略规划、风险评估、产品设计）；
- 示例：产品功能设计→设计 Agent A（主打实用性）、设计 Agent B（主打体验感）、设计 Agent C（主打低成本）→互相辩论各方案的优劣→裁判 Agent（整合最优方案，平衡实用性、体验感、成本）。

（3）Multi-Agent 协作的核心要点

角色精准定位：每个 Agent 的功能 / 领域要单一且专业，避免角色重叠，发挥优势互补；
清晰的沟通协议：Agent 之间需有统一的信息交互格式（如结构化的消息体），确保信息传递准确、无歧义；
任务边界清晰：明确每个 Agent 的任务范围、输入 / 输出要求，避免任务推诿或重复执行；
全局协调机制：需有 “主 Agent” 或 “调度系统”，把控整体进度，处理协作中的冲突（如多个 Agent 的结果矛盾）；
反馈闭环：子任务执行结果需及时反馈给上游 / 主 Agent，便于调整后续任务执行策略。

（4）Multi-Agent 主流应用场景

复杂内容创作：书籍撰写、影视剧本创作、多平台内容矩阵运营；
企业项目管理：产品开发、市场策划、供应链优化；
科研与数据分析：科研论文撰写、海量数据挖掘与分析、行业报告制作；
智能客服：多领域客服协作（售前、售中、售后、技术支持）；
智能制造：工厂生产调度、设备维护、工艺优化。