结论
- 最低实用付费路线:DeepSeek 或通义千问,前提是模型能力够用。
- 国内直连开源模型低价路线:硅基流动免费/小模型。
- 多模型低成本试错:OpenRouter 免费/低价模型,但长期高量要考虑加价。
- 本地部署只有 GPU 利用率足够高、运维成本可控时才划算。
怎么做
- 先估算每月输入/输出 tokens,输出 tokens 通常是成本大头。
- 把任务分成聊天、代码、总结、Agent、Embedding、长上下文。
- 用同一组评测 prompt 同时测两个便宜模型和一个高质量兜底模型。
- 优先做缓存、缩短 prompt、小模型分流,再考虑换供应商。
- 设置月预算告警,统计每个“成功任务”的成本,而不是只看 token 单价。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | $5 注册额度 + 低 token 单价 | 代码、Agent、通用文本 |
| 通义千问 | 7000 万 tokens 新用户额度 | 中文、代码、长上下文 |
| 硅基流动 | 免费小模型 + ¥14 额度 | 国内直连开源模型 |
| OpenRouter | 免费模型 + 多付费路由 | 模型横评和兜底路由 |
| Groq | 开发者免费限额 | 低延迟开源模型 |
自有平台承接
想要一个账单、一个兼容端点?
当维护多个 provider key 的工程成本高于路由层成本时,用 OpenLLMAPI 统一 GPT、Claude、Gemini、DeepSeek、Qwen。
FAQ
最便宜模型一定最划算吗?
不一定。要看每个成功任务的成本。如果便宜模型需要重试、更长 prompt 或人工修正,最终可能更贵。
本地 LLM 什么时候比 API 便宜?
通常要 GPU 每天高利用率,或者你已有硬件。零散调用场景,托管 API 往往更便宜。
不换供应商怎么降成本?
压缩 prompt、缓存重复上下文、简单任务分流到小模型、限制 max output tokens、必要时做批处理。
聚合平台适合追求最低价吗?
适合测试和兜底,不一定适合长期高量。稳定大流量最好对比官方直连价格。