RAG为什么是企业AI应用的标配

2025年11月7日 · 阅读需 6 分钟

James Zheng

Javaer

当真正开始开发企业级 AI 应用时，大家很快会遇到一个问题：

为什么模型看起来很聪明，但在业务场景里经常答错？

这也是 RAG（Retrieval-Augmented Generation，检索增强生成）诞生的原因。

1. 为什么模型回答不准

很多人第一次接入大模型后都会发现：

通用知识回答很好
企业内部知识回答很差
经常一本正经地胡说八道

例如：

用户提问：

东方甄选自营烤肠的保质期是多久？

如果这个商品是最近上线的，模型训练时根本没有见过相关数据。

此时模型只能依赖训练阶段学到的知识进行推理，最终可能生成一个看似合理但完全错误的答案。

这种现象通常被称为：

Hallucination（幻觉）

产生原因主要有：

知识截止

大模型只知道训练时的数据。

例如：

GPT训练到某个时间点
DeepSeek训练到某个时间点

之后新增的数据模型并不知道。

企业私有知识缺失

企业内部数据通常不会进入公开训练集。

例如：

商品信息
售后规则
客服话术
运维文档
内部制度

这些内容模型天然不知道。

概率生成机制

LLM本质上是在预测下一个Token。

它追求的是：

最可能的答案

而不是：

最真实的答案

因此会出现“看起来很合理”的错误回答。

2. Prompt为什么解决不了知识更新问题

很多初学者会想到：

那我把知识写进Prompt里不就行了吗？

例如：

你是一名客服专家。

商品A的退货规则：
7天无理由退货

商品B的退货规则：
15天无理由退货

......

这种方式对于少量数据是可行的。

但在企业场景下很快会遇到问题。

问题1：上下文长度有限

模型存在Context Window限制。

例如：

32K
128K
256K

企业知识库可能包含：

数万商品
数十万FAQ
上百万文档

根本无法全部塞进Prompt。

问题2：知识更新成本高

假设：

苹果礼盒退货规则：
7天无理由

运营修改为：

15天无理由

如果知识写死在Prompt中：

需要修改代码
重新发布系统

维护成本极高。

问题3：Token成本高

Prompt越长：

输入Token越多
推理时间越长
API费用越高

对于高并发业务：

例如：

智能客服
AI助手
商品问答

成本会迅速上升。

3. RAG整体架构

为了解决知识更新和知识注入问题，行业逐渐形成了RAG架构。

RAG全称：

Retrieval-Augmented Generation

即：

检索增强生成

整体流程如下：

用户问题
 ↓
Embedding
 ↓
向量检索
 ↓
上下文增强
 ↓
LLM生成

第一步：用户提问

例如：

苹果礼盒支持退货吗？

第二步：Embedding向量化

将问题转换为向量：

苹果礼盒支持退货吗？
↓
[0.231, 0.754, ...]

Embedding模型会将语义相近的内容映射到相近的向量空间。

例如：

苹果礼盒支持退货吗

苹果礼盒售后规则是什么

苹果礼盒可以退款吗

三句话虽然文字不同，但向量距离会很接近。

第三步：向量检索

在向量数据库中搜索最相似内容。

常见向量数据库：

Qdrant
Milvus
Weaviate
Elasticsearch Vector

例如检索到：

商品名称：苹果礼盒

售后规则：
15天无理由退货

第四步：上下文增强

将检索结果拼接到Prompt。

你是一名客服专家。

参考资料：

商品名称：苹果礼盒

售后规则：
15天无理由退货

用户问题：
苹果礼盒支持退货吗？

第五步：LLM生成

此时模型不再依赖训练知识。

而是依据实时检索到的内容回答：

苹果礼盒支持15天无理由退货。

这就是RAG的核心思想：

不让模型记住知识，而是让模型学会查知识。

4. 企业知识库场景

RAG几乎已经成为企业AI应用的标准配置。

商品知识库

电商场景非常常见。

知识来源：

商品详情
商品属性
售后规则
商品评价

用户提问：

榴莲为什么不甜？

系统可以检索：

榴莲成熟度说明

再由模型生成专业回复。

客服知识库

客服机器人是目前最成熟的RAG应用。

知识来源：

FAQ
客服手册
业务规则
退款流程

用户提问：

订单发货后还能取消吗？

系统实时检索相关规则并回答。

运维知识库

很多企业正在建设AIOps系统。

知识来源：

故障案例
运维手册
Kubernetes文档
系统架构说明

例如：

为什么Pod一直CrashLoopBackOff？

系统检索历史案例和运维文档后生成排查建议。

5. RAG的优缺点

优点

知识实时更新

新增文档后即可生效。

无需重新训练模型。

降低幻觉

回答基于真实知识库。

准确率显著提升。

成本低

相比Fine-tuning：

实现简单
维护容易
更新速度快

更适合企业场景。

模型无关

可以接入任意LLM：

GPT
DeepSeek
Qwen
Claude

知识库无需改变。

缺点

检索质量决定上限

如果检索不到正确内容：

Garbage In
Garbage Out

模型仍然会回答错误。

Chunk切分困难

文档如何切分：

太大召回不准
太小丢失上下文

需要不断调优。

检索延迟增加

相比直接调用LLM：

检索
+
重排
+
生成

会增加响应时间。

无法替代模型能力

RAG解决的是：

知识问题

而不是：

推理能力问题

如果任务需要复杂逻辑推理，仅靠RAG并不能解决。

总结

大模型最大的短板是：

不知道企业自己的知识。

Prompt可以临时注入少量知识，但无法解决大规模知识管理和实时更新问题。

因此行业逐渐形成了RAG架构：

用户问题
 ↓
Embedding
 ↓
向量检索
 ↓
上下文增强
 ↓
LLM生成

对于绝大多数企业AI项目来说：

智能客服
商品问答
企业搜索
AI助手
运维Copilot

第一步往往不是Agent，而是先做好RAG。

因为企业AI落地最核心的问题，从来不是模型不够聪明，而是模型不知道企业自己的知识。

1. 为什么模型回答不准​

知识截止​

企业私有知识缺失​

概率生成机制​

2. Prompt为什么解决不了知识更新问题​

问题1：上下文长度有限​

问题2：知识更新成本高​

问题3：Token成本高​

3. RAG整体架构​

第一步：用户提问​

第二步：Embedding向量化​

第三步：向量检索​

第四步：上下文增强​

第五步：LLM生成​

4. 企业知识库场景​

商品知识库​

客服知识库​

运维知识库​

5. RAG的优缺点​

优点​

知识实时更新​

降低幻觉​

成本低​

模型无关​

缺点​

检索质量决定上限​

Chunk切分困难​

检索延迟增加​

无法替代模型能力​

总结​

1. 为什么模型回答不准

知识截止

企业私有知识缺失

概率生成机制

2. Prompt为什么解决不了知识更新问题

问题1：上下文长度有限

问题2：知识更新成本高

问题3：Token成本高

3. RAG整体架构

第一步：用户提问

第二步：Embedding向量化

第三步：向量检索

第四步：上下文增强

第五步：LLM生成

4. 企业知识库场景

商品知识库

客服知识库

运维知识库

5. RAG的优缺点

优点

知识实时更新

降低幻觉

成本低

模型无关

缺点

检索质量决定上限

Chunk切分困难

检索延迟增加

无法替代模型能力

总结