结论
- 早期原型直连更便宜、更简单。
- 当重试、故障和可观测性比最小 markup 更重要时,网关开始有价值。
- 稳妥架构是保留直连逃生通道,同时把生产流量放在一个可观测 endpoint 后面。
怎么做
- 如果只调用一个 provider 且能人工处理事故,先直连。
- 扩展 provider 前先记录 prompt、model、延迟、状态和估算成本。
- 需要 fallback、客户预算或多模型实验时,引入 gateway route。
- 保留 provider 专项测试,避免 gateway 故障时应用被锁死。
- 每月复核路由表,因为价格、上下文和模型质量变化很快。
推荐路径对比
| 平台 | 免费/额度 | 适合 |
|---|---|---|
| 直连 Provider API | 各厂商额度 | 简单应用和最低集成复杂度 |
| OpenRouter 类网关 | 政策变化 | 一个 endpoint 使用多模型家族 |
| OpenLLMAPI | 体验政策变化 | 日志、fallback 与自有路由承接 |
| 自建 Proxy | 只有基础设施成本 | 有强控制需求和工程能力的团队 |
自有平台承接
不重写应用,增加路由能力
保留 OpenAI-compatible 客户端,在一个 endpoint 后加入 fallback、route 日志和预算归因。
FAQ
LLM gateway 一定更贵吗?
不一定。如果生产故障很贵,markup 可能比自建 fallback、日志和成本归因更省。
什么时候不要用 gateway?
只有一个 provider 足够、合规要求必须直签、或不能接受请求路径多一个依赖时。
gateway 至少要记录什么?
模型、route、延迟、token 估算、状态码、重试次数、用户/agent id 和最终成本分组。