结论
- 客服 bot 成本包含重试、长会话、fallback 调用和人工升级。
- 非常便宜的模型如果处理不好政策、退款或模糊问题,反而更贵。
- 选择 DeepSeek、Qwen、GLM 或网关前,要用真实工单 benchmark。
- 生产客服 chatbot 需要每日上限、隐私控制、日志和人工接管。
怎么做
- 收集 50 到 100 个真实或代表性客服问题,并标注可接受答案。
- 用同一批对话测试低价主路线、双语路线和强 fallback。
- 追踪答案接受率、fallback 率、升级率、延迟、tokens 和每次已解决会话总成本。
- 简单 FAQ 走低价模型,政策/退款/VIP 问题走 fallback 或人工。
- 需要统一 endpoint、花费日志、按客户归因和 provider 切换时,用 OpenLLMAPI。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | 核验当前价格 | 低价客服推理和总结 |
| 通义千问 DashScope | 注册额度变化 | 中国大陆友好双语客服 bot |
| 智谱 GLM | 注册 tokens 变化 | 国产中文客服 fallback |
| OpenRouter/Groq | 免费路线变化 | 快速客服 bot 原型 |
| OpenLLMAPI | 体验额度变化 | 客服路由、预算、fallback 和归因 |
自有平台承接
按解决成本路由客服
用一个兼容 endpoint 记录每次客服会话、限制花费、对高风险案例 fallback,并按客户归因成本。
FAQ
客服哪个 LLM API 最便宜?
最低成本路线是扣除重试、fallback 和人工升级后,每次已解决会话成本最低的路线。
客服聊天应该用 DeepSeek 吗?
可以作为低价候选 benchmark,但要核验当前价格、延迟、政策行为和答案接受率。
什么情况触发 fallback?
退款、法律/政策问题、低置信、愤怒用户、JSON/tool call 无效、限速、超时和 VIP 客户。
如何避免花费失控?
限制上下文长度、总结旧轮次、缓存 FAQ、限制用户请求,并按客户和会话记录成本。