Sep 20, 2024

宽泛科技联手华为数据存储,构建先进大模型训练平台

上海宽泛科技有限公司(以下简称宽泛科技),成立于2016年,是以AI算力设备、AI算法应用的研发、生产、销售及行业解决方案定制为主营业务的“上海市高新技术企业”和“专精特新企业”。

近些年,人工智能技术快速发展,宛如一颗璀璨的新星,成为推动科技和产业加速发展的重要力量,为经济社会的发展和人类文明的进步带来了深远且持久的影响。2023年宽泛科技携手教育部科技发展中心,发布了中国高校产学研创新基金,这一举措旨在全力支持高校在人工智能领域的课题研究,为培养未来的人工智能人才和推动学术创新贡献力量。

强大的基础设施是AI技术的推动力,为此,宽泛科技联合华为数据存储,使用华为AI数据湖解决方案一同构建先进的训练平台。华为AI数据湖解决方案是训练平台的重要组成部分,它基于多套OceanStor AI存储,依托多协议互通、智能数据分级以及高性能并行客户端的专业存储能力,提供令人惊叹的TB级带宽以及强大的EB级容量扩展实力,从而加速大模型的训练。

11

宽泛科技:构建AI训练平台面临挑战


| 算力可用度的提升

大模型训练以多机多卡任务为主,往往会用到成千上万张GPU卡,运行过程中常常面临各种故障,如网络波动、硬盘故障、GPU故障等,这些故障都可能导致训练任务意外中断。因此,大模型算力的实际可用度普遍低于50%,这对训练效率和资源利用率构成了显著的影响。为了对训练到推理的全流程进行优化,宽泛科技意识到使用专业的AI存储避免GPU无效等待至关重要。


| 容量平滑扩展能力

随着算力租赁市场的蓬勃发展以及多模态智能化技术的不断演进,宽泛科技的AI集群规模亟需从千卡规模演进至万卡。这一过程导致数据量的激增,存储容量也需要从几PB到几十PB,甚至扩展到EB级。在灵活扩展的同时,还要兼顾成本,这就需要提高存储介质的利用效率,对数据进行“温”、“冷”、“热”的区分,将它们存在相应的存储介质上,能够显著降低存储成本。


| 并发可靠访问能力

随着越来越多的研究人员加入到高校人工智能课题的研究,宽泛科技所要求的AI集群规模也越来越大,同时会有上千名研究员并发测试、调度、调优等,且随着业务量逐渐加大,并发量还将逐渐增大,因此对存储的高并发可靠访问能力也有非常高的要求。

222

宽泛科技与华为数据存储强强联手,共同构建起领先的大模型训练平台,它基于宽泛飞鱼调度平台和华为AI数据湖解决方案,为客户提供端到端(E2E)的解决方案。这一方案能够大大节省客户在选型和调优上所耗费的时间,帮助客户在短时间内完成更多的任务。无论是在仿真实验室、气象预测,还是 AI 助教等高等教育人工智能训推场景中,都能够实现快速部署,高效运用。

华为AI数据湖解决方案凭借其良好的兼容性、EB级容量扩展能力以及超高性能等显著特质,成为宽泛算力中心数据基础设施的首选方案。这一方案极大的提升了AI集群算力可用度,显著提高了建设效率。



| 高效解决GPU利用率低难题

华为AI数据湖解决方案的高速并行文件系统DPC在构建先进训练平台中发挥着关键作用,特别是在多节点并发场景下,能够提供TB级带宽、性能优于Lustre 2倍之多,能够使AI集群GPU利用率提升10%,其卓越的性能为算力中心提供强大动力,加速企业算力中心训推的整个流程。


| 从容应对数据增长与算力需求

随着数据量的不断增加,训练平台集群规模需要同步扩展,华为AI数据湖解决方案完美契合了算力平台平滑演进的需求,支持最大4096节点横向扩展,实现从PB级到EB级容量扩展。

此外,还支持数据智能温热分级,借此优化资源利用率,保障关键数据快速访问。采用性能层与容量层配合,性能层存储热数据和高频访问的数据,提供高速的读写性能和低延时;容量层存储温冷数据,这些数据访问频率较低,但是对存储容量的需求较大。通过这样的设计,能够兼顾AI场景混合数据负载诉求,实现存储价值最大化。


| 打破数据孤岛,挖掘价值宝藏

通过统一的存储平台以及无损多协议互通,数据湖实现了统一管理。它成功消除了传统数据存储方式中数据分散在不同系统和应用中的“数据孤岛”问题,为客户数据中心提供统一存储底座,并且能够与宽泛飞鱼调度平台兼容,有力支撑宽泛混合算力的部署,大大节省了客户选型和调优的时间,帮助企业更全面的管理自身的数据资产,进而深度挖掘其中蕴含的价值。
宽泛科技联合华为数据存储,以宽泛飞鱼调度平台和华为AI数据湖解决方案为基础,融合先进的算法和高可靠的数据湖底座,共同打造出更加先进的训练平台。成功打破“数据孤岛”,架起联通数据与知识的桥梁,加速AI人工智能的涌现。

                                                     (来源:华为数据存储 公众号)