Aug 27, 2020

案例实析|GPU服务器≠堆叠GPU，高效稳定还需独特设计

简单来说，GPU服务器是利用GPU的异构计算特性，为视频编解码、深度学习、科学计算等多种场景提供快速、稳定、弹性的计算服务。然而，存在这样一种误区，将GPU服务器对等于就是GPU的堆叠。我们通过一次客户求助案例，详解GPU服务器和普通PC的区别之处。

求助案列

该用户计划启动一个人工智能项目，需要建立一个GPU计算集群来支撑相关的数据计算。客户的自有解决方案却出现了GPU卡无法识别、工作不正常等问题。

客户自有的解决方案是：

管理节点：某品牌通用服务器
计算节点：DIY服务器＋自购GPU卡（T4）
存储节点：某品牌存储服务器

在看了客户之前的开会和机器的检测记录，发现目前主要故障出在开机一段时间后无法识别GPU卡或GPU卡计算性能下降。

初步怀疑应该是GPU卡没有充分散热导致的这个问题。

紧接着我们尝试将目前GPU服务器的多GPU先后分别拔出来，观察其运行的状态；（原GPU服务器有2~4块GPU不等）并检测出风口的温度。

过了一段时间后结果出来了，发现当GPU服务器的GPU数量减少后，特别是单块GPU运行的时候，服务器的性能没有出现明显的下降，但出风口的温度还是在75°以上！

结果分析

很明显这是因为设备的散热能力不足，导致了关键元件（GPU）温度过高，从而导致掉卡或降频。

再加上用户所选为你自己DIY的服务器，其温度监测机制或传感器无法与品牌服务器相提并论，所以监测结果并不一定准确。

解决方案

1.将目前DIY的服务器都给其他用户当小型图形工作站使用，并且只能使用单个GPU。

2.DIY服务器的GPU和CPU的散热均换成水冷。

3.务必选择专业的GPU服务器，保证工作稳定性。

术业有专攻，GPU服务器的独特之处

专业的GPU服务器，从供电、散热通道等多方面和通用服务器都不一样，整套散热套件的设计和零件都不是相同的。往往元件的分布需要经过精心考虑而设计，通过散热风道实验验证降温效果。

再者，GPU服务器内部的物理架构和逻辑架构是根据GPU使用环境专门设计，并通过真实环境不断检验、完善的。所以，并不是标准的X86服务器插上GPU卡就是GPU服务器了。

定制优化GPU解决方案

数据科学研究快如闪电

宽泛科技作为英特尔、英伟达等芯片及品牌厂商的坚实合作伙伴，NVIDIA潜力AI公司加速计划成员，携手专注为人工智能提供硬件解决方案及相关服务，已成为国内过万家企业、院校及研究机构的信息化解决方案供应商。

旗下Cloudhin®云轩支持Deep learning和高性能计算服务器定制，针对主要深度学习框架（如TensorFlow、Caffe 2、Theano或Torch）进行了优化和设置，为计算系统提供强大的深度学习功能。

Cloudhin®云轩GS4288-P4采用Intel C612最高速芯片组，性能稳定，把握十足。其支持两颗E5-2600 v4/v3（24核48线程），内存最大支持3TB内存。

最高可搭载8个NVIDIA图形处理器，RTX 2080/S/TI、RTX TITAN/V、TESLA T4/P100/V100，均支持按需定制。轻松应对分子动力学模拟、排序，生命科学与医疗分析、石油天然气勘探、GPU虚拟化，是复杂模型计算的理想选择。

专业勤修，锐意进取。云轩技术工程师毕业于NVIDIA深度学习研究所，丰富经验，值得信赖。更多定制方案请联系客服，我们将实时响应您的定制需求。

联系我们

如果您有合作需求或宝贵建议，欢迎来信。

邮箱：hezuo@kuanfans.com

合作热线：400-610-1360转375899

返回列表

案例实析|GPU服务器≠堆叠GPU，高效稳定还需独特设计

核心业务

合作伙伴

客户案例

新闻资讯

行研报告

关于我们

加入我们

会员中心

案例实析|GPU服务器≠堆叠GPU，高效稳定还需独特设计

推荐新闻

WAIC2025倒计时！宽泛云6U八卡AI服务器：以硬核算力重构智能未来

未来已来，复兴相见！宽泛科技闪耀2025杨浦全球推介大会

核心业务

合作伙伴

客户案例

新闻资讯

行研报告

关于我们

加入我们

会员中心