Skip to main content

AI商品评价自动回复系统设计与实现

· 5 min read

随着大模型技术逐渐进入企业生产环境,越来越多的客服、运营场景开始尝试利用AI提升效率。本文将结合本人参与的商品评价智能回复项目,介绍一个面向百万级商品评价场景的AI自动回复系统设计与实现方案。


一、业务背景

在电商平台中,商品评价不仅影响用户购买决策,也是商家运营的重要数据来源。

以东方甄选为例,每天会产生大量商品评价:

  • 好评感谢
  • 商品质量反馈
  • 物流问题投诉
  • 售后服务咨询
  • 商品使用建议

随着业务规模增长,商品评价总量已经达到百万级。

传统运营模式下:

  • 人工逐条查看评价
  • 根据经验编写回复
  • 不同运营人员回复风格不统一
  • 差评处理效率低

因此我们希望构建一套AI商品评价自动回复系统,实现:

  • 自动识别评价内容
  • 自动生成回复
  • 人工审核后发布
  • 提升回复效率和一致性

二、核心流程设计

整个系统采用多阶段AI工作流设计。

评价

情感分析

意图识别

知识库检索

Prompt组装

多模型生成

审核

回复

每个节点只负责单一职责。

1. 情感分析

首先判断评价属于:

  • 好评
  • 中评
  • 差评

例如:

苹果很甜,下次还会买

输出:

{
"sentiment": "positive"
}

而:

收到时已经坏了

输出:

{
"sentiment": "negative"
}

情感结果决定后续流程走向。


2. 意图识别

对于差评,需要进一步识别用户真实诉求。

例如:

水果不甜

识别为:

{
"intent":"product_quality"
}

快递太慢了

识别为:

{
"intent":"logistics"
}

客服一直没人回复

识别为:

{
"intent":"service"
}

通过意图分类,实现后续知识库精准召回。


3. 知识库检索

根据意图进入对应知识域。

商品知识库

包含:

  • 商品卖点
  • 商品参数
  • 常见问题

例如:

商品:山东烟台红富士

糖度:
13%-15%

成熟周期:
10月采摘

物流知识库

包含:

  • 仓储信息
  • 发货规则
  • 配送规则

售后知识库

包含:

  • 退款规则
  • 补发规则
  • 客诉处理规范

4. Prompt组装

系统会动态拼接Prompt。

示例:

你是一名电商客服。

用户评价:
水果不甜。

商品知识:
本商品属于自然成熟水果,
糖度受天气影响较大。

请生成专业且礼貌回复。

Prompt模板统一由运营维护。


5. 多模型生成

为了保证生成质量,我们采用多模型并行策略。

同时调用:

  • DeepSeek
  • Qwen
  • GPT

生成三份回复。

例如:

回复A:

非常抱歉未能达到您的预期...

回复B:

感谢反馈,我们已将问题同步给供应链团队...

回复C:

水果甜度受天气和批次影响...

6. 人工审核

AI不直接发送。

运营后台展示:

  • 原评价
  • 检索知识
  • AI回复结果

审核员可:

  • 直接采用
  • 修改后采用
  • 重新生成

确保回复质量可控。


三、Agent工作流设计

项目采用Agent Workflow模式,而非单次Prompt调用。

工作流结构:

ReviewAgent


SentimentAgent


IntentAgent


RetrieverAgent


PromptAgent


GeneratorAgent


AuditAgent

每个Agent负责独立任务。

Java实现中采用:

StateMachine

管理状态流转。

状态定义:

RECEIVED

SENTIMENT_DONE

INTENT_DONE

RETRIEVE_DONE

GENERATED

AUDITING

FINISHED

通过状态机实现:

  • 可追踪
  • 可重试
  • 可扩展

后续增加节点无需重构主流程。


四、知识库设计

知识库是系统效果的关键。

分层结构

商品知识库

物流知识库

售后知识库

客服话术库

Chunk切分

采用:

512 Token
+
50 Token Overlap

避免上下文断裂。


检索方案

Hybrid Search:

Keyword Search
+
Vector Search

优势:

  • 保证召回率
  • 提高语义匹配能力

ReRank排序

召回后使用ReRank模型排序。

Top20

ReRank

Top5

降低噪声数据进入Prompt。


五、多模型对比方案

项目上线前进行了大量AB实验。

模型回复质量成本速度
GPT★★★★★
DeepSeek★★★★☆
Qwen★★★★

评测维度

准确率

是否回答用户问题。


礼貌度

是否符合客服规范。


知识引用率

是否正确使用检索内容。


幻觉率

是否编造事实。


最终采用:

DeepSeek
+
Qwen

作为主模型。

复杂场景降级切换GPT。


六、效果评估

项目上线后进行了持续监控。

运营效率提升

回复效率:

人工回复:
30秒/条

AI辅助:
5秒/条

效率提升约80%。


自动采纳率

AI回复直接采纳率

≈ 75%

差评处理时效

从:

24小时

缩短到:

2小时以内

成本收益

整体运营成本下降约:

60%

同时保持回复质量稳定。


总结

AI商品评价自动回复系统本质上并不是简单的大模型问答,而是一个融合了:

  • Agent工作流
  • RAG知识库
  • Prompt工程
  • 多模型协同
  • 人工审核

的企业级AI应用。

对于开发者而言,真正的挑战也并非调用大模型API,而是如何构建一套稳定、可扩展、可治理的AI工作流系统。