返回知识库

发布日期:2026年5月12日

作者:世纪云峰AI算力团队

分类:AI算力 / 技术评估

阅读时间:约 15 分钟

本文导读:本文针对企业内部 AI Agent 调用大模型 API 的场景,对 GPU 算力规划和公网带宽需求进行量化评估,为 IDC 采购决策提供依据。

文档目录

一、评估背景与前提

本文针对企业内部 AI Agent 调用大模型 API 的场景,对 GPU 算力规划和公网带宽需求进行量化评估,为 IDC 采购决策提供依据。

评估前提

二、并发能力评估

2.1 单台服务器(8×4090)能力

70B 模型 FP8 量化后权重大小约 70GB,由 8 卡通过 Tensor Parallelism 加载,每卡约承载 9GB 权重。剩余显存用于 KV Cache,决定并发能力上限。

参数 数值 说明
模型量化方式 FP8 权重 ~70GB,精度损失 < 1%
每请求平均输入 300 tokens Agent 短上下文特征
每请求平均输出 500 tokens Agent 典型输出长度
单 token 生成速度 ~20 tok/s 8×4090 FP8 实测参考值
每请求平均耗时 ~10s Prefill + Decode 合计
单台并发请求数 20-30 受 KV Cache 显存约束
单台 QPS 15-20 20 并发 ÷ 10s/请求

2.2 5 台服务器总并发能力

指标 计算方式 结果
总并发 Agent 数(均值) 5 × 25 125 并发
总 QPS(均值) 5 × 17.5 ~88 QPS
保守规划值(预留余量) 100 并发 / 80 QPS
乐观值(短输出场景) 5 × 40 200 并发 / 120 QPS

2.3 不同输出长度对并发的影响

平均输出长度 每请求耗时 单台并发 5 台总并发
200 tokens ~5s ~40 200
500 tokens ~10s ~25 125
1000 tokens ~20s ~15 75
2000 tokens ~40s ~8 40

三、公网带宽评估

3.1 单请求流量计算

Agent API 场景以文本为主,流量极低:

输入:  300 tokens ≈ 0.6 KB(UTF-8 编码)
输出:  500 tokens ≈ 1.0 KB(流式传输,逐 token 发送)
单次请求总流量 ≈ 1.6 KB

3.2 稳态带宽需求

并发 Agent 数 平均请求频率 计算过程 所需带宽
60 1 次/5s 60 × 0.32 KB/s 0.15 Mbps
125(预期) 1 次/3s 125 × 0.53 KB/s 0.5 Mbps
200(乐观) 1 次/2s 200 × 0.8 KB/s 1.3 Mbps

3.3 峰值带宽分析

最坏情况:所有并发 Agent 同时开始接收流式输出。

125 并发 × 每 token ~2 bytes × 20 tok/s 流式输出
= 5000 bytes/s ≈ 0.04 Mbps

加上 HTTP/JSON 协议封装开销(约 ×2)
实际峰值 ≈ 0.1 Mbps

关键结论

流式输出是均匀发送的,不存在突发高峰。纯文本 API 场景下,即使在 200 并发的情况下,公网带宽需求也不到 2 Mbps。

3.4 含 RAG 文档上传的带宽需求

企业内部 Agent 场景,文档上传频率较低,但需预留余量:

场景 带宽需求 说明
纯 Agent API(125 并发) 2-5 Mbps 实际极低
含偶尔文档上传(RAG) 10-30 Mbps 单文件 5-10MB,有限并发上传

3.5 IDC 带宽采购建议

方案 带宽规格 适用场景 评价
最低 30 Mbps 独享 纯 API,几乎无上传 可用但无余量
推荐 50 Mbps 独享 API + RAG 文档上传 ✅ 性价比最好
宽裕 100 Mbps 独享 多模态扩展预留 余量充足

最终结论

Agent API 场景对公网带宽需求极低,50 Mbps 独享可完全满足 125 并发 Agent + 偶尔 RAG 文档上传的需求,并留有充分余量。

四、vLLM 关键配置参考

要达到上述并发能力,必须使用 vLLM 并正确配置以下参数:

参数 推荐值 作用
--tensor-parallel-size 8 8 卡 Tensor Parallelism
--quantization fp8 FP8 量化,降低显存占用
--gpu-memory-utilization 0.90 KV Cache 显存占比
--max-num-seqs 64 最大并发请求数
--enable-chunked-prefill 开启 长输入切块,避免阻塞解码
--enable-prefix-caching 开启 缓存共享 System Prompt,Agent 场景效果显著
--max-model-len 4096 最大上下文长度(越长 KV Cache 压力越大)

4.1 Prefix Caching 对 Agent 场景的价值

Agent 调用通常带有相同的 System Prompt(可能 500-1000 tokens),开启 Prefix Caching 后:

指标 未开启 开启后
首字时延(TTFT) ~500ms ~50ms
KV Cache 占用 全量 共享部分只计算一次
有效并发能力 基准 提升约 30-50%

五、汇总与建议

部署规划汇总

硬件配置
5 台× 8×4090
模型规格
70BFP8 量化
预期并发 Agent
100-125并发
预期总 QPS
80-100QPS
推荐公网带宽
50 Mbps独享
含 RAG 上传余量
10-30 Mbps实际需求

注意事项

需要GPU算力部署方案?

世纪云峰科技提供专业的GPU算力规划和部署服务,助您选择最适合的AI算力解决方案。

立即咨询:156-2522-0012

获取报价