Skip to main content

商品评价AI回复系统的演进

· 3 min read

第一阶段:规则+Prompt

业务阶段

刚开始每天评价量不高,运营主要关注回复效率。

方案

评价

情感分类

Prompt模板

LLM生成回复

例如:

用户评价:

苹果很好吃

Prompt:

你是电商客服,请礼貌回复用户好评

生成:

感谢您的支持,欢迎再次购买。

遇到的问题

随着评价量增长,回复开始出现:

草莓不甜

模型可能回复:

感谢您的支持

或者

水果甜度因人而异

明显与运营预期不符。


第二阶段:意图识别+知识库匹配

业务阶段

差评开始增多。

运营希望:

不同问题有不同回复逻辑。

方案

增加意图分类:

评价

情感分类

意图识别
├─物流问题
├─商品质量
├─包装问题
├─售后问题

知识库匹配

Prompt组装

LLM

例如:

快递太慢了

识别:

物流问题

匹配:

物流FAQ

Prompt:

参考以下物流说明回复用户:

......

遇到的问题

知识库越来越大:

500+
1000+
5000+

关键词匹配开始失效。

例如:

收到的时候已经烂了

可能命中:

水果不甜

而不是:

运输损坏

第三阶段:向量检索RAG

业务阶段

商品数快速增长。

水果
零食
酒水
生鲜
家电

知识库达到数千条。

方案

引入Embedding。

评价

Embedding

Vector Search

TopK召回

Prompt

LLM

例如:

评价:

荔枝打开全是黑的

向量检索:

水果腐坏处理规范

而不是:

荔枝商品介绍

收益

Recall明显提升。

运营开始能够接受AI回复质量。


第四阶段:Hybrid Search

业务阶段

发现向量检索并不是万能。

例如:

A123型号
订单998812
阳光玫瑰葡萄

Embedding效果反而不好。

方案

Hybrid Search。

用户评价

┌─────────┐
│Keyword │
└─────────┘

Merge

┌─────────┐
│Vector │
└─────────┘

Recall

常见实现:

ES BM25
+
Qdrant

效果

商品型号、品牌名称召回率大幅提升。


第五阶段:ReRank重排

业务阶段

召回结果越来越多。

Top10里面:

相关
相关
不相关
相关
不相关

Prompt中混入噪声。

导致回复质量下降。

方案

增加ReRank。

Query

Recall Top50

Cross Encoder

ReRank

Top5

LLM

例如:

草莓收到后发酸

召回:

水果变质
水果成熟度
物流时效
退款规则
...

ReRank后:

水果变质处理规范

排到第一位。

效果

准确率进一步提升。


第六阶段:Query Rewrite

业务阶段

用户评价越来越口语化。

例如:

不行

一般般

检索效果很差。

方案

增加Query Rewrite。

评价

Rewrite

检索

回复

例如:

原评价:

不甜

改写:

用户反馈水果甜度不足

原评价:

都坏了

改写:

用户反馈收到商品存在腐坏问题

效果

召回准确率提升。


第七阶段:在线评测闭环

业务阶段

运营开始关注:

AI回复是否真的有效?

方案

建立评测体系。

用户评价

AI回复

人工审核

用户反馈

效果统计

指标:

知识命中率
召回准确率
审核通过率
人工修改率
用户满意度

最终企业级架构

用户评价

情感分析

意图识别

Query Rewrite

Router

Vector

ReRank

Prompt Builder

LLM

AI回复

人工审核

反馈回流

RAG评测平台