常见智算加速卡汇总

背景

目前在推进关于智算加速卡的虚拟化建设，涉及到vGPU、MPS/MIG的方案，在推进业务落地时，除了要考虑业务模型对加速卡使用率（平均/最大）、显存使用率（平均/最大）、业务的请求量，还需要充分考虑智算加速卡的成本。

常见智算加速卡

数据来源

https://www.techpowerup.com/gpu-specs/

算力指标说明

算力单位：

FLOPS：每秒浮点运算次数（Floating Point Operations Per Second）
TFLOPS：万亿次浮点运算每秒（1 TFLOPS = 10¹² FLOPS），衡量GPU算力的标准单位

精度类型：

FP64：双精度浮点，64位，主要用于科学计算和工程仿真
FP32：单精度浮点，32位，传统深度学习训练的标准精度(通常使用这个)
FP16：半精度浮点，16位，混合精度训练和推理加速
带*号：表示使用Tensor Core加速的峰值性能

显存类型：

HBM3e/HBM3/HBM2e/HBM2：高带宽内存，用于数据中心GPU
GDDR6X/GDDR6/GDDR5：图形DDR内存，用于消费级和工作站GPU

价格说明：

价格单位为万元人民币，为2024年市场参考价格
实际价格因供应商、采购量、市场波动和地区差异而有所不同
部分型号价格区间反映不同配置或市场渠道的差异
国产芯片价格具有一定的政策优势和本土化服务成本优势

常见加速卡汇总

以下算力单位统一使用TFLOPS，价格统一使用万元人民币。

厂商	卡型号名称	FP16	FP32	FP64	显存	价格	发售日期
NVIDIA	`M40`	-	`6.8`	`0.21`	`12GB/24GB GDDR5`	`1.5`	`201511`
NVIDIA	`P4`	`22*`	`5.5`	-	`8GB GDDR5`	`1`	`201609`
NVIDIA	`P40`	`47*`	`11.8`	-	`24GB GDDR5`	`2`	`201609`
NVIDIA	`V100`	`125*`	`15.7`	`7.8`	`16GB/32GB HBM2`	`10`	`201706`
NVIDIA	`T4`	`65*`	`8.1`	-	`16GB GDDR6`	`2.5`	`201809`
NVIDIA	`RTX2080Ti`	`26.9*`	`13.4`	-	`11GB GDDR6`	`1`	`201809`
NVIDIA	`A100`	`312*`	`19.5`	`9.7`	`40GB/80GB HBM2e`	`12`	`202005`
NVIDIA	`RTX3090`	`156*`	`36`	`0.6`	`24GB GDDR6X`	`1.5`	`202009`
NVIDIA	`A40`	`149*`	`37.4`	-	`48GB GDDR6`	`7`	`202010`
NVIDIA	`A30`	`165*`	`10.3`	-	`24GB HBM2`	`5`	`202104`
NVIDIA	`H100`	`1979*`	`67`	`34`	`80GB HBM3`	`22`	`202203`
NVIDIA	`RTX4090`	`166*`	`83`	`1.3`	`24GB GDDR6X`	`1.4`	`202210`
NVIDIA	`A800`	`312*`	`19.5`	`9.7`	`40GB/80GB HBM2e`	`10`	`202211`
NVIDIA	`H800`	`1979*`	`67`	`1`	`80GB HBM3`	`18`	`202211`
NVIDIA	`L4`	`121*`	`30.3`	-	`24GB GDDR6`	`4`	`202303`
NVIDIA	`L40`	`362*`	`90.5`	-	`48GB GDDR6`	`10`	`202310`
NVIDIA	`L40S`	`733*`	`91.6`	-	`48GB GDDR6`	`12`	`202311`
NVIDIA	`RTX4090D`	`146*`	`73`	`1.1`	`24GB GDDR6X`	`1.2`	`202312`
NVIDIA	`H20`	`900*`	-	-	`96GB HBM3`	`10`	`2024Q1`
NVIDIA	`H200`	`1979*`	`67`	`34`	`141GB HBM3e`	`28`	`2024Q2`
华为	`昇腾910`	`256*`	`32`	-	`32GB HBM2`	`9`	`201908`
华为	`昇腾910B`	`313/376*`	`82/99`	-	`64GB HBM3`	`12`	`202401`
华为	`昇腾910C`	`781.25`	-	-	`64GB HBM2e`	-	-
华为	`Atlas 300I Pro`	-	-	-	`24GB LPDDR4X`	`2`	`202106`
华为	`Atlas 300I Duo`	-	-	-	`48GB/96GB LPDDR4X`	`3.5`	`202201`
华为	`Atlas 800T A2`	`2504/3008*`	`656/792`	-	`8x64GB HBM`	`80`	`202301`
华为	`Atlas 800I A2`	`2240*`	`600`	-	`8x32GB/64GB HBM`	`70`	`202303`
海光	`DCU Z100`	`92.4`	`23.1`	-	`32GB HBM2e`	`7`	`202112`
海光	`DCU K100`	`200`	`100`	-	`64GB HBM3`	`10`	`202309`
海光	`DCU K100_AI`	`196`	-	-	`64GB GDDR6`	-	-
百度	`昆仑1`	`28`	`14`	-	`16GB HBM2`	`4`	`201912`
百度	`昆仑2`	`128`	`32`	-	`32GB HBM2e`	`7`	`202108`
天数智芯	`智凯100`	`96`	-	-	`32GB HBM2`	-	-
天数智芯	`天垓100`	`147`	-	-	`32GB HBM2`	-	-
天数智芯	`天垓150`	`190`	-	-	`64GB HBM2e`	-	-
昆仑芯	`P800`	`350`	-	-	`96GB HBM2e`	-	-
平头哥	`PG1`	`123`	-	-	`96GB HBM2e`	-	-
寒武纪	`MLU370`	`96*`	`24`	-	`48GB LPDDR5`	`6`	`202106`
寒武纪	`MLU590`	`314*`	`62.8`	-	`80GB HBM3`	`12`	`202406`
寒武纪	`MLU370-S4/S8`	`72`	-	-	`24GB LPDDR5`	-	-
寒武纪	`MLU370-X4`	`96`	-	-	`24GB LPDDR5`	-	-
寒武纪	`MLU370-X8`	`96`	-	-	`48GB LPDDR5`	-	-
沐曦	`曦云C500-PCIE`	`240`	-	-	`64GB HBM2e`	-	-
沐曦	`曦云C500-OAM`	`280`	-	-	`64GB HBM2e`	-	-
壁仞	`BR106B`	-	-	-	-	-	-
壁仞	`BR100C`	-	-	-	-	-	-
壁仞	`BR100M`	-	-	-	-	-	-
燧原	`GCU S30`	`80`	`20`	-	`32GB HBM2e`	`5`	`202201`

参考资料

WIKI

NVIDIA官方资料：

技术对比与分析：

国产智算加速卡资料：

华为昇腾官方资料：

其他厂商官方资料：

沐曦开发者文档 - C500 DeepSeek部署手册

阿里平头哥相关资料：

市场分析与趋势：

华为昇腾资料：

https://www.eefocus.com/article/1842567.html

注：本文档数据基于公开资料整理，技术规格已通过官方资料验证。价格数据来源于2024年市场调研，以万元人民币为单位，实际采购价格可能因供应商、采购量、市场波动、地区差异等因素而有所不同。建议在实际采购前咨询最新报价。

背景​

常见智算加速卡​

数据来源​

算力指标说明​

常见加速卡汇总​

参考资料​

背景

常见智算加速卡

数据来源

算力指标说明

常见加速卡汇总

参考资料