结论
- 成本优先代码路线:DeepSeek,并严格限制 max_tokens 和重试次数。
- 国内友好代码路线:Qwen / DashScope compatible mode。
- 低延迟开源模型路线:按地区选择 Groq 或硅基流动。
- 生产推荐:便宜模型主跑,卡住时切高质量模型兜底。
怎么做
- 从真实工作里挑 10 个代码任务:bug fix、重构、补测试、写文档、小功能。
- 同一组任务跑 DeepSeek、Qwen 和一个高质量兜底模型,记录通过率、重试、延迟、输出 tokens。
- 把 base_url、model、api_key 配置化,方便 Cursor、OpenClaw、Claude Code 类工具和自研 Agent 切换。
- 限制 max output tokens,阻止无限工具循环,把简单解释任务分流到便宜模型。
- 连续一周“每个通过 patch 成本”更低,再把 provider 升为主路线。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| DeepSeek | $5 注册 / 控制台当前额度 | 低成本代码 Agent 和仓库任务 |
| 通义千问 | 7000 万 tokens | 国内代码、长上下文、多语言仓库 |
| 智谱 GLM | 500 万 tokens | 国内低成本代码实验 |
| Groq | 开发者免费限额变化 | 高速开源模型补全和快速修复 |
| OpenLLMAPI | 注册体验额度 | 一个兼容 key 做低价/高质量兜底 |
自有平台承接
想让代码 Agent 低价跑,卡住时自动切高质量模型?
用一个 OpenAI 兼容端点,把日常代码任务路由到 DeepSeek/Qwen,卡住时 fallback 到 GPT、Claude、Gemini。
FAQ
代码 API 成本最该看什么指标?
看每个通过测试/被接受 patch 的成本。便宜 token 如果导致重试、测试失败、长篇废话或人工重写,实际更贵。
Qwen 做代码比 DeepSeek 更便宜吗?
取决于当前价格、输出长度和任务成功率。Qwen 常适合国内/代码路线;DeepSeek 通常是最低成本基线。
代码模型要不要自部署?
只有 GPU 高利用率或强隐私需求时值得。零散 Agent 调用一般托管 API 更省心。
怎么避免 Agent 成本爆炸?
设置最大迭代、最大输出、diff 范围、预算告警,以及重复失败后的 fallback 规则。