Groq 在中国怎么用?超快 AI 推理指南
Groq 用自研 LPU(Language Processing Unit)芯片,推理速度是 GPU 的 10 倍以上。Llama 3.1 70B 在 Groq 上能跑到 300+ tokens/秒,体验像是 AI 在"秒回"。
Groq 免费额度
| 模型 | 免费限制 | 速度 |
|------|---------|------|
| Llama 3.1 70B | 30 RPM / 14400 tok/min | ~300 tok/s |
| Llama 3.1 8B | 30 RPM / 14400 tok/min | ~800 tok/s |
| Mixtral 8x7B | 30 RPM / 5000 tok/min | ~500 tok/s |
| Gemma 2 9B | 30 RPM / 14400 tok/min | ~600 tok/s |
免费额度对个人开发者完全够用。
中国大陆怎么用?
Groq API 中国大陆不能直连。两种方案:
方案 1:API 中转(推荐)
from openai import OpenAI
client = OpenAI(
api_key="你的 openllmapi Key",
base_url="https://api.openllmapi.com"
)
response = client.chat.completions.create(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": "Hello"}]
)
print(response.choices[0].message.content)
通过 openllmapi.com 中国大陆直连调用 Groq。
方案 2:代理 + 官方 API
curl https://api.groq.com/openai/v1/chat/completions \
-H "Authorization: Bearer 你的KEY" \
-H "Content-Type: application/json" \
-d '{"model": "llama-3.1-70b-versatile", "messages": [{"role": "user", "content": "Hello"}]}'
Groq 适合什么场景?
- 实时对话 — 300+ tok/s 的速度让对话几乎无延迟
- 流式输出 — 打字机效果极其流畅
- 批量处理 — 速度快意味着同样时间处理更多请求
- 原型开发 — 快速迭代,不用等 AI 慢慢生成
Groq vs 其他
| | Groq | DeepSeek | ChatGPT |
|--|------|----------|---------|
| 速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 模型能力 | ⭐⭐⭐⭐(Llama 70B) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 免费额度 | 30 RPM | $5 赠金 | 无(API) |
| 中国大陆直连 | ❌ | ✅ | ❌ |
| 自有模型 | ❌(跑开源模型) | ✅ | ✅ |
总结
Groq 的杀手锏是速度。如果你的应用对响应时间敏感(实时聊天、流式输出),Groq 是最佳选择。中国大陆通过中转站使用即可。
---
更新于 2026 年 4 月。