结论
- RAG 成本包含检索基础设施和重试行为,不只是模型输出 tokens。
- DeepSeek 价格要查官方文档,确认当前 cache 和 off-peak 规则。
- Qwen 和 GLM 在需要中国大陆友好访问和延迟时是实用路线。
- 优化 provider 价格表前,先追踪每个已解决答案成本。
怎么做
- 收集 50 个真实客服或产品问题,附预期文档和可接受答案。
- 按问题测 embedding、rerank、检索上下文 tokens、chat tokens、重试和 fallback 次数。
- 分别计算每个被接受答案成本和每个升级答案成本。
- 用相同 prompts benchmark 一条低价主路线和一条强 fallback。
- 用 OpenLLMAPI 或 middleware 记录每次 RAG 调用的 provider、model、route、cache 状态和最终 outcome。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | 核验官方价格 | 低价 RAG 答案生成 |
| 通义千问 | 注册额度变化 | 中国大陆友好双语 RAG chatbot |
| 智谱 GLM | 注册 tokens 变化 | 国产 RAG workflow fallback |
| OpenRouter/Groq | 免费路线变化 | 快速原型路线对比 |
| OpenLLMAPI | 体验额度变化 | RAG 路线日志、fallback、预算和成本归因 |
自有平台承接
按被接受答案衡量 RAG 成本
把 RAG 调用放到一个兼容 endpoint 后,统一 provider 日志、cache 元数据、fallback trace 和预算控制。
FAQ
为什么最便宜 chat 模型不一定让 RAG 最便宜?
弱模型可能需要更多上下文、更多重试或更强 fallback,导致已接受答案总成本更高。
Embedding 会主导 RAG 成本吗?
小应用通常 chat 和重试更主导,但规模化后 embedding、rerank 和重建索引也可能明显。
RAG 应该用 DeepSeek 吗?
要 benchmark。DeepSeek 常是低价候选,但当前价格、cache、延迟和答案接受率才决定。
每周该看哪个指标?
每个被接受答案成本、fallback 率、升级率、幻觉/错误答案率,以及最贵文档或租户。