| 项目 | 免费额度 |
| 推理请求 | 10000 次/天 |
| 文本生成 | 10000 次/天 |
| 文本分类 | 10000 次/天 |
| 翻译 | 10000 次/天 |
| 图片分类 | 10000 次/天 |
| 嵌入生成 | 10000 次/天 |
| 语音转文字 | 10000 次/天 |
注意:这是每天的额度,不是每月。每天重置,不累积。
不需要信用卡,注册 Cloudflare 免费账号即可使用。
支持的模型
Workers AI 支持多个开源模型,主要包括:
文本生成
| 模型 | 参数量 | 特点 |
| @cf/meta/llama-3.1-8b-instruct | 8B | 通用对话,质量不错 |
| @cf/mistral/mistral-7b-instruct-v0.2 | 7B | 多语言,速度快 |
| @cf/qwen/qwen1.5-7b-chat | 7B | 中文优化 |
| @cf/google/gemma-7b-it | 7B | Google 开源 |
文本嵌入
| 模型 | 维度 | 特点 |
| @cf/baai/bge-base-en-v1.5 | 768 | 英文嵌入 |
| @cf/baai/bge-large-en-v1.5 | 1024 | 高质量英文嵌入 |
其他任务
export default {
async fetch(request, env) {
const response = await env.AI.run(
"@cf/meta/llama-3.1-8b-instruct",
{
messages: [
{ role: "system", content: "你是一个有帮助的助手。" },
{ role: "user", content: "用一句话解释什么是边缘计算" }
]
}
);
return new Response(JSON.stringify(response), {
headers: { "content-type": "application/json" }
});
}
};
在 wrangler.toml 中添加 AI 绑定:
[ai]
binding = "AI"
方式二:通过 REST API 调用
如果不想写 Workers,也可以直接用 REST API:
curl https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/meta/llama-3.1-8b-instruct \
-H "Authorization: Bearer {api_token}" \
-d '{
"messages": [
{"role": "system", "content": "你是一个有帮助的助手。"},
{"role": "user", "content": "你好"}
]
}'
方式三:通过 Python SDK
import requests
API_BASE = "https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run"
headers = {"Authorization": "Bearer {api_token}"}
response = requests.post(
f"{API_BASE}/@cf/meta/llama-3.1-8b-instruct",
headers=headers,
json={
"messages": [
{"role": "system", "content": "你是一个有帮助的助手。"},
{"role": "user", "content": "你好"}
]
}
)
print(response.json())
实际使用体验
速度
Workers AI 的响应速度取决于你离 Cloudflare 节点的距离:
| 地区 | 首 token 延迟 | 生成速度 |
| 中国大陆 | 0.3-0.8s | 30-50 token/s |
| 东南亚 | 0.2-0.5s | 40-60 token/s |
| 美国 | 0.1-0.3s | 50-70 token/s |
速度不算顶级(比不上 Groq),但对于免费服务来说已经很不错。
模型能力
Workers AI 目前主要支持 7B-8B 级别的模型,能力上有明显天花板:
简单任务(分类、摘要、翻译):表现良好
中等任务(一般对话、简单代码):基本够用
复杂任务(长文写作、复杂推理):力不从心
如果你需要 GPT-4o 级别的能力,Workers AI 不是正确的选择。但如果你的需求是轻量级 AI 功能,它完全够用。
稳定性
Cloudflare 的基础设施稳定性毋庸置疑。在我们的测试中,Workers AI 的可用性接近 99.9%,几乎没有遇到过服务不可用的情况。
最佳实践
1. 选对模型
不同任务选不同模型:
中文对话 → Qwen 1.5 7B
英文通用 → Llama 3.1 8B
多语言翻译 → M2M100
文本嵌入 → BGE 系列
2. 控制输入长度
7B 模型的上下文窗口有限(通常 4K-8K token)。长文本需要先分段处理。
3. 搭配 Workers 生态
Workers AI 的最大优势是与 Cloudflare 生态的集成:
用户请求 → Workers(路由逻辑)→ Workers AI(推理)
→ D1(存储结果)
→ R2(存储文件)
→ KV(缓存)
一个完整的 AI 应用可以全部跑在 Cloudflare 上,免费额度覆盖所有组件。
4. 缓存重复请求
对于相同的输入,可以用 Cloudflare KV 缓存结果,减少 AI 调用次数:
export default {
async fetch(request, env) {
const body = await request.json();
const cacheKey = JSON.stringify(body.messages);
// 检查缓存
const cached = await env.KV.get(cacheKey);
if (cached) return new Response(cached);
// 调用 AI
const result = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", body);
const response = JSON.stringify(result);
// 写入缓存(1小时过期)
await env.KV.put(cacheKey, response, { expirationTtl: 3600 });
return new Response(response);
}
};
5. 合理分配每日额度
10000 次/天看起来很多,但如果不注意也会用完:
避免在循环中调用 AI
批量处理时控制并发
非关键请求用缓存兜底
与其他免费方案对比
| 维度 | Workers AI | DeepSeek | Groq | Google AI Studio |
| 免费额度 | 10000次/天 | $5赠金 | 每日限额 | 1500次/天 |
| 模型能力 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 速度 | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 国内直连 | ✅ | ✅ | ❌ | ❌ |
| 生态集成 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |