企业AI Agent部署的算力规划与带宽需求指南
本文针对企业内部 AI Agent 调用大模型 API 的场景,对 GPU 算力规划和公网带宽需求进行量化评估,为 IDC 采购决策提供依据。
70B 模型 FP8 量化后权重大小约 70GB,由 8 卡通过 Tensor Parallelism 加载,每卡约承载 9GB 权重。剩余显存用于 KV Cache,决定并发能力上限。
| 参数 | 数值 | 说明 |
|---|---|---|
| 模型量化方式 | FP8 | 权重 ~70GB,精度损失 < 1% |
| 每请求平均输入 | 300 tokens | Agent 短上下文特征 |
| 每请求平均输出 | 500 tokens | Agent 典型输出长度 |
| 单 token 生成速度 | ~20 tok/s | 8×4090 FP8 实测参考值 |
| 每请求平均耗时 | ~10s | Prefill + Decode 合计 |
| 单台并发请求数 | 20-30 | 受 KV Cache 显存约束 |
| 单台 QPS | 15-20 | 20 并发 ÷ 10s/请求 |
| 指标 | 计算方式 | 结果 |
|---|---|---|
| 总并发 Agent 数(均值) | 5 × 25 | 125 并发 |
| 总 QPS(均值) | 5 × 17.5 | ~88 QPS |
| 保守规划值(预留余量) | — | 100 并发 / 80 QPS |
| 乐观值(短输出场景) | 5 × 40 | 200 并发 / 120 QPS |
| 平均输出长度 | 每请求耗时 | 单台并发 | 5 台总并发 |
|---|---|---|---|
| 200 tokens | ~5s | ~40 | 200 |
| 500 tokens | ~10s | ~25 | 125 |
| 1000 tokens | ~20s | ~15 | 75 |
| 2000 tokens | ~40s | ~8 | 40 |
Agent API 场景以文本为主,流量极低:
输入: 300 tokens ≈ 0.6 KB(UTF-8 编码) 输出: 500 tokens ≈ 1.0 KB(流式传输,逐 token 发送) 单次请求总流量 ≈ 1.6 KB
| 并发 Agent 数 | 平均请求频率 | 计算过程 | 所需带宽 |
|---|---|---|---|
| 60 | 1 次/5s | 60 × 0.32 KB/s | 0.15 Mbps |
| 125(预期) | 1 次/3s | 125 × 0.53 KB/s | 0.5 Mbps |
| 200(乐观) | 1 次/2s | 200 × 0.8 KB/s | 1.3 Mbps |
最坏情况:所有并发 Agent 同时开始接收流式输出。
125 并发 × 每 token ~2 bytes × 20 tok/s 流式输出 = 5000 bytes/s ≈ 0.04 Mbps 加上 HTTP/JSON 协议封装开销(约 ×2) 实际峰值 ≈ 0.1 Mbps
流式输出是均匀发送的,不存在突发高峰。纯文本 API 场景下,即使在 200 并发的情况下,公网带宽需求也不到 2 Mbps。
企业内部 Agent 场景,文档上传频率较低,但需预留余量:
| 场景 | 带宽需求 | 说明 |
|---|---|---|
| 纯 Agent API(125 并发) | 2-5 Mbps | 实际极低 |
| 含偶尔文档上传(RAG) | 10-30 Mbps | 单文件 5-10MB,有限并发上传 |
| 方案 | 带宽规格 | 适用场景 | 评价 |
|---|---|---|---|
| 最低 | 30 Mbps 独享 | 纯 API,几乎无上传 | 可用但无余量 |
| 推荐 | 50 Mbps 独享 | API + RAG 文档上传 | ✅ 性价比最好 |
| 宽裕 | 100 Mbps 独享 | 多模态扩展预留 | 余量充足 |
Agent API 场景对公网带宽需求极低,50 Mbps 独享可完全满足 125 并发 Agent + 偶尔 RAG 文档上传的需求,并留有充分余量。
要达到上述并发能力,必须使用 vLLM 并正确配置以下参数:
| 参数 | 推荐值 | 作用 |
|---|---|---|
--tensor-parallel-size |
8 | 8 卡 Tensor Parallelism |
--quantization |
fp8 | FP8 量化,降低显存占用 |
--gpu-memory-utilization |
0.90 | KV Cache 显存占比 |
--max-num-seqs |
64 | 最大并发请求数 |
--enable-chunked-prefill |
开启 | 长输入切块,避免阻塞解码 |
--enable-prefix-caching |
开启 | 缓存共享 System Prompt,Agent 场景效果显著 |
--max-model-len |
4096 | 最大上下文长度(越长 KV Cache 压力越大) |
Agent 调用通常带有相同的 System Prompt(可能 500-1000 tokens),开启 Prefix Caching 后:
| 指标 | 未开启 | 开启后 |
|---|---|---|
| 首字时延(TTFT) | ~500ms | ~50ms |
| KV Cache 占用 | 全量 | 共享部分只计算一次 |
| 有效并发能力 | 基准 | 提升约 30-50% |
世纪云峰科技提供专业的GPU算力规划和部署服务,助您选择最适合的AI算力解决方案。
立即咨询:156-2522-0012
获取报价