Groq 在中国怎么用?超快 AI 推理指南

Groq 用自研 LPU(Language Processing Unit)芯片,推理速度是 GPU 的 10 倍以上。Llama 3.1 70B 在 Groq 上能跑到 300+ tokens/秒,体验像是 AI 在"秒回"。

Groq 免费额度

免费额度对个人开发者完全够用。

中国大陆怎么用?

Groq API 中国大陆不能直连。两种方案:

方案 1:API 中转(推荐)

from openai import OpenAI

client = OpenAI(

api_key="你的 openllmapi Key",

base_url="https://api.openllmapi.com"

)

response = client.chat.completions.create(

model="llama-3.1-70b-versatile",

messages=[{"role": "user", "content": "Hello"}]

)

print(response.choices[0].message.content)

通过 openllmapi.com 中国大陆直连调用 Groq。

方案 2:代理 + 官方 API

1. 访问 console.groq.com

2. 用 Google/GitHub 账号登录

3. 获取 API Key

4. 代理环境下调用

curl https://api.groq.com/openai/v1/chat/completions \

-H "Authorization: Bearer 你的KEY" \

-H "Content-Type: application/json" \

-d '{"model": "llama-3.1-70b-versatile", "messages": [{"role": "user", "content": "Hello"}]}'

Groq 适合什么场景?

  • 实时对话 — 300+ tok/s 的速度让对话几乎无延迟
  • 流式输出 — 打字机效果极其流畅
  • 批量处理 — 速度快意味着同样时间处理更多请求
  • 原型开发 — 快速迭代,不用等 AI 慢慢生成

Groq vs 其他

模型免费限制速度
Llama 3.1 70B30 RPM / 14400 tok/min~300 tok/s
Llama 3.1 8B30 RPM / 14400 tok/min~800 tok/s
Mixtral 8x7B30 RPM / 5000 tok/min~500 tok/s
Gemma 2 9B30 RPM / 14400 tok/min~600 tok/s
GroqDeepSeekChatGPT
速度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
模型能力⭐⭐⭐⭐(Llama 70B)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
免费额度30 RPM$5 赠金无(API)
中国大陆直连
自有模型❌(跑开源模型)

总结

Groq 的杀手锏是速度。如果你的应用对响应时间敏感(实时聊天、流式输出),Groq 是最佳选择。中国大陆通过中转站使用即可。

👉 Groq 详情 · 42 家 AI 免费额度汇总

---

更新于 2026 年 4 月。