背景
目前在推进关于智算加速卡的虚拟化建设,涉及到vGPU
、MPS/MIG
的方案,在推进业务落地时,除了要考虑业务模型对加速卡使用率(平均/最大)、显存使用率(平均/最大)、业务的请求量,还需要充分考虑智算加速卡的成本。
常见智算加速卡
算力指标说明
算力单位:
- FLOPS:每秒浮点运算次数(
Floating Point Operations Per Second
) - TFLOPS:万亿次浮点运算每秒(
1 TFLOPS = 10¹² FLOPS
),衡量GPU
算力的标准单位
精度类型:
- FP64:双精度浮点,
64
位,主要用于科学计算和工程仿真 - FP32:单精度浮点,
32
位,传统深度学习训练的标准精度 - FP16:半精度浮点,
16
位,混合精度训练和推理加速 - 带*号:表示使用
Tensor Core
加速的峰值性能
显存类型:
- HBM3e/HBM3/HBM2e/HBM2:高带宽内存,用于数据中心GPU
- GDDR6X/GDDR6/GDDR5:图形DDR内存,用于消费级和工作站GPU
价格说明:
- 价格单位为万元人民币,为2024年市场参考价格
- 实际价格因供应商、采购量、市场波动和地区差异而有所不同
- 部分型号价格区间反映不同配置或市场渠道的差异
- 国产芯片价格具有一定的政策优势和本土化服务成本优势
常见加速卡汇总
以下算力单位统一使用TFLOPS
,价格统一使用万元人民币。
厂商 | 卡型号名称 | FP64 | FP32 | FP16 | 显存 | 价格 | 发售日期 |
---|---|---|---|---|---|---|---|
NVIDIA | M40 | 0.21 | 6.8 | - | 12GB/24GB GDDR5 | 1.5 | 201511 |
NVIDIA | P4 | - | 5.5 | 22* | 8GB GDDR5 | 1 | 201609 |
NVIDIA | P40 | - | 11.8 | 47* | 24GB GDDR5 | 2 | 201609 |
NVIDIA | V100 | 7.8 | 15.7 | 125* | 16GB/32GB HBM2 | 10 | 201706 |
NVIDIA | T4 | - | 8.1 | 65* | 16GB GDDR6 | 2.5 | 201809 |
NVIDIA | RTX2080Ti | - | 13.4 | 26.9* | 11GB GDDR6 | 1 | 201809 |
NVIDIA | A100 | 9.7 | 19.5 | 312* | 40GB/80GB HBM2e | 12 | 202005 |
NVIDIA | RTX3090 | 0.6 | 36 | 156* | 24GB GDDR6X | 1.5 | 202009 |
NVIDIA | A40 | - | 37.4 | 149* | 48GB GDDR6 | 7 | 202010 |
NVIDIA | A30 | - | 10.3 | 165* | 24GB HBM2 | 5 | 202104 |
NVIDIA | H100 | 34 | 67 | 1979* | 80GB HBM3 | 22 | 202203 |
NVIDIA | RTX4090 | 1.3 | 83 | 166* | 24GB GDDR6X | 1.4 | 202210 |
NVIDIA | A800 | 9.7 | 19.5 | 312* | 40GB/80GB HBM2e | 10 | 202211 |
NVIDIA | H800 | 1 | 67 | 1979* | 80GB HBM3 | 18 | 202211 |
NVIDIA | L4 | - | 30.3 | 121* | 24GB GDDR6 | 4 | 202303 |
NVIDIA | L40 | - | 90.5 | 362* | 48GB GDDR6 | 10 | 202310 |
NVIDIA | L40S | - | 91.6 | 733* | 48GB GDDR6 | 12 | 202311 |
NVIDIA | RTX4090D | 1.1 | 73 | 146* | 24GB GDDR6X | 1.2 | 202312 |
NVIDIA | H20 | - | - | 900* | 96GB HBM3 | 10 | 2024Q1 |
NVIDIA | H200 | 34 | 67 | 1979* | 141GB HBM3e | 28 | 2024Q2 |
华为 | 昇腾910 | - | 32 | 256* | 32GB HBM2 | 9 | 201908 |
华为 | 昇腾910B | - | - | 376* | 64GB HBM3 | 12 | 202401 |
海光 | DCU Z100 | - | 23.1 | 92.4 | 32GB HBM2e | 7 | 202112 |
海光 | DCU K100 | - | 100 | 200 | 64GB HBM3 | 10 | 202309 |
百度 | 昆仑1 | - | 14 | 28 | 16GB HBM2 | 4 | 201912 |
百度 | 昆仑2 | - | 32 | 128 | 32GB HBM2e | 7 | 202108 |
寒武纪 | MLU370 | - | 24 | 96* | 48GB LPDDR5 | 6 | 202106 |
寒武纪 | MLU590 | - | 62.8 | 314* | 80GB HBM3 | 12 | 202406 |
壁仞 | BR100 | - | 48 | 192 | 64GB HBM2e | 10 | 202212 |
沐曦 | MXC500 | - | 24 | 96 | 32GB HBM2e | 5 | 202306 |
燧原 | GCU S30 | - | 20 | 80 | 32GB HBM2e | 5 | 202201 |
天数智芯 | 天垓100 | - | 32 | 128 | 32GB HBM2e | 6 | 202301 |
参考资料
NVIDIA官方资料:
- NVIDIA H200 Tensor Core GPU
- NVIDIA L40S GPU
- NVIDIA Tesla T4 Tensor Core GPU
- NVIDIA H100 Tensor Core GPU
- NVIDIA Data Centers
- NVIDIA Data Center GPU Line Card
技术对比与分析:
- NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
- 英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100
- NVIDIA GPU Comparison Guide
国产智算加速卡资料:
阿里平头哥相关资料:
市场分析与趋势:
华为昇腾资料:
注:本文档数据基于公开资料整理,技术规格已通过官方资料验证。价格数据来源于2024年市场调研,以万元人民币为单位,实际采购价格可能因供应商、采购量、市场波动、地区差异等因素而有所不同。建议在实际采购前咨询最新报价。