Groq 在中国怎么用？超快 AI 推理指南

Groq 用自研 LPU（Language Processing Unit）芯片，推理速度是 GPU 的 10 倍以上。Llama 3.1 70B 在 Groq 上能跑到 300+ tokens/秒，体验像是 AI 在"秒回"。

Groq 免费额度

| 模型 | 免费限制 | 速度 |

|------|---------|------|

| Llama 3.1 70B | 30 RPM / 14400 tok/min | ~300 tok/s |

| Llama 3.1 8B | 30 RPM / 14400 tok/min | ~800 tok/s |

| Mixtral 8x7B | 30 RPM / 5000 tok/min | ~500 tok/s |

| Gemma 2 9B | 30 RPM / 14400 tok/min | ~600 tok/s |

免费额度对个人开发者完全够用。

中国大陆怎么用？

Groq API 中国大陆不能直连。两种方案：

方案 1：API 中转（推荐）

from openai import OpenAI

client = OpenAI(
    api_key="你的 openllmapi Key",
    base_url="https://api.openllmapi.com"
)

response = client.chat.completions.create(
    model="llama-3.1-70b-versatile",
    messages=[{"role": "user", "content": "Hello"}]
)
print(response.choices[0].message.content)

通过 openllmapi.com 中国大陆直连调用 Groq。

方案 2：代理 + 官方 API

访问 console.groq.com

用 Google/GitHub 账号登录

获取 API Key

代理环境下调用

curl https://api.groq.com/openai/v1/chat/completions \
  -H "Authorization: Bearer 你的KEY" \
  -H "Content-Type: application/json" \
  -d '{"model": "llama-3.1-70b-versatile", "messages": [{"role": "user", "content": "Hello"}]}'

Groq 适合什么场景？

实时对话 — 300+ tok/s 的速度让对话几乎无延迟
流式输出 — 打字机效果极其流畅
批量处理 — 速度快意味着同样时间处理更多请求
原型开发 — 快速迭代，不用等 AI 慢慢生成

Groq vs 其他

|--|------|----------|---------|

| 速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |

| 模型能力 | ⭐⭐⭐⭐（Llama 70B） | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |

| 免费额度 | 30 RPM | $5 赠金 | 无（API） |

| 中国大陆直连 | ❌ | ✅ | ❌ |

| 自有模型 | ❌（跑开源模型） | ✅ | ✅ |

总结

Groq 的杀手锏是速度。如果你的应用对响应时间敏感（实时聊天、流式输出），Groq 是最佳选择。中国大陆通过中转站使用即可。

👉 Groq 详情 · 42 家 AI 免费额度汇总

---

更新于 2026 年 4 月。

Groq 在中国怎么用？超快 AI 推理指南