结论
- 生产环境里,可靠性和成本归因比最低 token 单价更重要。
- 需要 fallback、日志、预算上限和多模型时,网关价值最高。
- 简单单模型应用仍然可以直连 provider。
- 先按成功任务、用户、功能和 Agent run 记录成本,再优化路由。
怎么做
- 列出每个 LLM 调用对应的功能、用户、模型和月 token 量。
- 选择一个便宜主路线和至少一个更强兜底路线。
- 记录 prompt tokens、completion tokens、延迟、状态码、重试和最终模型。
- 启用长时间 Agent 或后台任务前,先设预算告警。
- 使用 OpenAI-compatible base_url,后续换路线不改业务代码。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| OpenLLMAPI | 体验额度随活动变化 | 一个 endpoint 做路由、fallback、预算日志、多模型访问 |
| OpenRouter | 免费/低价路线变化 | 广泛模型试用和简单多模型访问 |
| DeepSeek | 当前注册额度变化 | 低价代码和推理主路线 |
| 通义千问 | 注册额度随活动变化 | 中国大陆友好长上下文和代码兜底 |
| 智谱 GLM | 注册 tokens 随活动变化 | 国产 GLM 兜底和预算实验 |
自有平台承接
把 fallback 和预算放到一个 endpoint 后面
低价模型优先、失败自动升级,并按用户、功能、应用或 Agent run 归因成本。
FAQ
小应用一定要网关吗?
不一定。单 provider 稳定且成本清楚,可以先直连。需要 fallback、日志、预算上限或多 provider 时再加网关。
应该追踪哪个成本指标?
追踪成功任务成本,而不是只看 token 单价。要包含重试、JSON 失败、超时和人工返工。
网关真的能省钱吗?
可以。简单任务走便宜模型,失败时才升级到强模型;同时用预算防止 Agent 循环烧钱。
OpenAI 兼容就够了吗?
不够。还要测试 streaming、tool calls、JSON mode、embeddings、错误格式和限速行为。