商品评价AI回复系统的演进
· 3 min read
第一阶段:规则+Prompt
业务阶段
刚开始每天评价量不高,运营主要关注回复效率。
方案
评价
↓
情感分类
↓
Prompt模板
↓
LLM生成回复
例如:
用户评价:
苹果很好吃
Prompt:
你是电商客服,请礼貌回复用户好评
生成:
感谢您的支持,欢迎再次购买。
遇到的问题
随着评价量增长,回复开始出现:
草莓不甜
模型可能回复:
感谢您的支持
或者
水果甜度因人而异
明显与运营预期不符。
第二阶段:意图识别+知识库匹配
业务阶段
差评开始增多。
运营希望:
不同问题有不同回复逻辑。
方案
增加意图分类:
评价
↓
情感分类
↓
意图识别
├─物流问题
├─商品质量
├─包装问题
├─售后问题
↓
知识库匹配
↓
Prompt组装
↓
LLM
例如:
快递太慢了
识别:
物流问题
匹配:
物流FAQ
Prompt:
参考以下物流说明回复用户:
......
遇到的问题
知识库越来越大:
500+
1000+
5000+
关键词匹配开始失效。
例如:
收到的时候已经烂了
可能命中:
水果不甜
而不是:
运输损坏
第三阶段:向量检索RAG
业务阶段
商品数快速增长。
水果
零食
酒水
生鲜
家电
知识库达到数千条。
方案
引入Embedding。
评价
↓
Embedding
↓
Vector Search
↓
TopK召回
↓
Prompt
↓
LLM
例如:
评价:
荔枝打开全是黑的
向量检索:
水果腐坏处理规范
而不是:
荔枝商品介绍
收益
Recall明显提升。
运营开始能够接受AI回复质量。
第四阶段:Hybrid Search
业务阶段
发现向量检索并不是万能。
例如:
A123型号
订单998812
阳光玫瑰葡萄
Embedding效果反而不好。
方案
Hybrid Search。
用户评价
↓
┌─────────┐
│Keyword │
└─────────┘
↓
Merge
↑
┌─────────┐
│Vector │
└─────────┘
↓
Recall
常见实现:
ES BM25
+
Qdrant
效果
商品型号、品牌名称召回率大幅提升。
第五阶段:ReRank重排
业务阶段
召回结果越来越多。
Top10里面:
相关
相关
不相关
相关
不相关
Prompt中混入噪声。
导致回复质量下降。
方案
增加ReRank。
Query
↓
Recall Top50
↓
Cross Encoder
↓
ReRank
↓
Top5
↓
LLM
例如:
草莓收到后发酸
召回:
水果变质
水果成熟度
物流时效
退款规则
...
ReRank后:
水果变质处理规范
排到第一位。
效果
准确率进一步提升。
第六阶段:Query Rewrite
业务阶段
用户评价越来越口语化。
例如:
不行
差
一般般
检索效果很差。
方案
增加Query Rewrite。
评价
↓
Rewrite
↓
检索
↓
回复
例如:
原评价:
不甜
改写:
用户反馈水果甜度不足
原评价:
都坏了
改写:
用户反馈收到商品存在腐坏问题
效果
召回准确率提升。
第七阶段:在线评测闭环
业务阶段
运营开始关注:
AI回复是否真的有效?
方案
建立评测体系。
用户评价
↓
AI回复
↓
人工审核
↓
用户反馈
↓
效果统计
指标:
知识命中率
召回准确率
审核通过率
人工修改率
用户满意度
最终企业级架构
用户评价
↓
情感分析
↓
意图识别
↓
Query Rewrite
↓
Router
↓
Vector
↓
ReRank
↓
Prompt Builder
↓
LLM
↓
AI回复
↓
人工审核
↓
反馈回流
↓
RAG评测平台