Skip to main content

RAG为什么是企业AI应用的标配

· 6 min read

当真正开始开发企业级 AI 应用时,大家很快会遇到一个问题:

为什么模型看起来很聪明,但在业务场景里经常答错?

这也是 RAG(Retrieval-Augmented Generation,检索增强生成)诞生的原因。


1. 为什么模型回答不准

很多人第一次接入大模型后都会发现:

  • 通用知识回答很好
  • 企业内部知识回答很差
  • 经常一本正经地胡说八道

例如:

用户提问:

东方甄选自营烤肠的保质期是多久?

如果这个商品是最近上线的,模型训练时根本没有见过相关数据。

此时模型只能依赖训练阶段学到的知识进行推理,最终可能生成一个看似合理但完全错误的答案。

这种现象通常被称为:

Hallucination(幻觉)

产生原因主要有:

知识截止

大模型只知道训练时的数据。

例如:

  • GPT训练到某个时间点
  • DeepSeek训练到某个时间点

之后新增的数据模型并不知道。

企业私有知识缺失

企业内部数据通常不会进入公开训练集。

例如:

  • 商品信息
  • 售后规则
  • 客服话术
  • 运维文档
  • 内部制度

这些内容模型天然不知道。

概率生成机制

LLM本质上是在预测下一个Token。

它追求的是:

最可能的答案

而不是:

最真实的答案

因此会出现“看起来很合理”的错误回答。


2. Prompt为什么解决不了知识更新问题

很多初学者会想到:

那我把知识写进Prompt里不就行了吗?

例如:

你是一名客服专家。

商品A的退货规则:
7天无理由退货

商品B的退货规则:
15天无理由退货

......

这种方式对于少量数据是可行的。

但在企业场景下很快会遇到问题。

问题1:上下文长度有限

模型存在Context Window限制。

例如:

  • 32K
  • 128K
  • 256K

企业知识库可能包含:

  • 数万商品
  • 数十万FAQ
  • 上百万文档

根本无法全部塞进Prompt。


问题2:知识更新成本高

假设:

苹果礼盒退货规则:
7天无理由

运营修改为:

15天无理由

如果知识写死在Prompt中:

  • 需要修改代码
  • 重新发布系统

维护成本极高。


问题3:Token成本高

Prompt越长:

  • 输入Token越多
  • 推理时间越长
  • API费用越高

对于高并发业务:

例如:

  • 智能客服
  • AI助手
  • 商品问答

成本会迅速上升。


3. RAG整体架构

为了解决知识更新和知识注入问题,行业逐渐形成了RAG架构。

RAG全称:

Retrieval-Augmented Generation

即:

检索增强生成

整体流程如下:

用户问题

Embedding

向量检索

上下文增强

LLM生成

第一步:用户提问

例如:

苹果礼盒支持退货吗?

第二步:Embedding向量化

将问题转换为向量:

苹果礼盒支持退货吗?

[0.231, 0.754, ...]

Embedding模型会将语义相近的内容映射到相近的向量空间。

例如:

苹果礼盒支持退货吗

苹果礼盒售后规则是什么

苹果礼盒可以退款吗

三句话虽然文字不同,但向量距离会很接近。


第三步:向量检索

在向量数据库中搜索最相似内容。

常见向量数据库:

  • Qdrant
  • Milvus
  • Weaviate
  • Elasticsearch Vector

例如检索到:

商品名称:苹果礼盒

售后规则:
15天无理由退货

第四步:上下文增强

将检索结果拼接到Prompt。

你是一名客服专家。

参考资料:

商品名称:苹果礼盒

售后规则:
15天无理由退货

用户问题:
苹果礼盒支持退货吗?

第五步:LLM生成

此时模型不再依赖训练知识。

而是依据实时检索到的内容回答:

苹果礼盒支持15天无理由退货。

这就是RAG的核心思想:

不让模型记住知识,而是让模型学会查知识。


4. 企业知识库场景

RAG几乎已经成为企业AI应用的标准配置。

商品知识库

电商场景非常常见。

知识来源:

  • 商品详情
  • 商品属性
  • 售后规则
  • 商品评价

用户提问:

榴莲为什么不甜?

系统可以检索:

榴莲成熟度说明

再由模型生成专业回复。


客服知识库

客服机器人是目前最成熟的RAG应用。

知识来源:

  • FAQ
  • 客服手册
  • 业务规则
  • 退款流程

用户提问:

订单发货后还能取消吗?

系统实时检索相关规则并回答。


运维知识库

很多企业正在建设AIOps系统。

知识来源:

  • 故障案例
  • 运维手册
  • Kubernetes文档
  • 系统架构说明

例如:

为什么Pod一直CrashLoopBackOff?

系统检索历史案例和运维文档后生成排查建议。


5. RAG的优缺点

优点

知识实时更新

新增文档后即可生效。

无需重新训练模型。


降低幻觉

回答基于真实知识库。

准确率显著提升。


成本低

相比Fine-tuning:

  • 实现简单
  • 维护容易
  • 更新速度快

更适合企业场景。


模型无关

可以接入任意LLM:

  • GPT
  • DeepSeek
  • Qwen
  • Claude

知识库无需改变。


缺点

检索质量决定上限

如果检索不到正确内容:

Garbage In
Garbage Out

模型仍然会回答错误。


Chunk切分困难

文档如何切分:

  • 太大召回不准
  • 太小丢失上下文

需要不断调优。


检索延迟增加

相比直接调用LLM:

检索
+
重排
+
生成

会增加响应时间。


无法替代模型能力

RAG解决的是:

知识问题

而不是:

推理能力问题

如果任务需要复杂逻辑推理,仅靠RAG并不能解决。


总结

大模型最大的短板是:

不知道企业自己的知识。

Prompt可以临时注入少量知识,但无法解决大规模知识管理和实时更新问题。

因此行业逐渐形成了RAG架构:

用户问题

Embedding

向量检索

上下文增强

LLM生成

对于绝大多数企业AI项目来说:

  • 智能客服
  • 商品问答
  • 企业搜索
  • AI助手
  • 运维Copilot

第一步往往不是Agent,而是先做好RAG。

因为企业AI落地最核心的问题,从来不是模型不够聪明,而是模型不知道企业自己的知识。