Groq 在中国怎么用?超快 AI 推理指南
Groq 用自研 LPU(Language Processing Unit)芯片,推理速度是 GPU 的 10 倍以上。Llama 3.1 70B 在 Groq 上能跑到 300+ tokens/秒,体验像是 AI 在"秒回"。
Groq 免费额度
| 模型 | 免费限制 | 速度 | |
| Llama 3.1 70B | 30 RPM / 14400 tok/min | ~300 tok/s | |
| Llama 3.1 8B | 30 RPM / 14400 tok/min | ~800 tok/s | |
| Mixtral 8x7B | 30 RPM / 5000 tok/min | ~500 tok/s | |
| Gemma 2 9B | 30 RPM / 14400 tok/min | ~600 tok/s | |
| Groq | DeepSeek | ChatGPT | |
| 速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 模型能力 | ⭐⭐⭐⭐(Llama 70B) | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 免费额度 | 30 RPM | $5 赠金 | 无(API) |
| 中国大陆直连 | ❌ | ✅ | ❌ |
| 自有模型 | ❌(跑开源模型) | ✅ | ✅ |
总结
Groq 的杀手锏是速度。如果你的应用对响应时间敏感(实时聊天、流式输出),Groq 是最佳选择。中国大陆通过中转站使用即可。
---
更新于 2026 年 4 月。