存储系统对大模型具有极其重要的作用,关乎数据存储与管理、数据预处理、训练效率、推理性能、模型扩展等诸多方面。
但单从这些性能指标来看,我们可能无法直观感受到其关键性。那么,到底什么样的存储系统才能为大模型所用?
基于全球权威AI基准测评厂商MLCommons公布的MLPerf v1.0存储性能基准测试,其中提到了带宽、模拟GPU数量以及GPU利用率等指标。这些指标与大模型的训练、推理息息相关。
这一波大模型热潮的基本特征之一就是,既需要处理海量数据保证训练效率,同时在实际应用中,大模型需要快速对输入数据进行推理给出结果,这之中的关键就是——高带宽,高带宽存储可以实现快速数据传输、实时响应,同时面对大模型参数规模越来越大、多模态数据增加等情形,高带宽也可以支持其模型运行。
然而,部分存储系统受限于硬件性能、系统架构、并发访问压力过大,一定程度上会影响数据处理效率、占用存储空间。
同时,在给定的训练模型和GPU型号下,存储系统能够支持的GPU数量也是衡量其性能的关键指标之一。
通过模拟GPU数量,能在部署中评估不同存储配置下的大模型训练性能和成本效益,帮助企业选择最适合的存储和GPU组合。
反之,如果存储系统模拟GPU数量不够,不仅会使得模型的训练时间大幅延长,还会导致模型收敛困难,同等规模的GPU集群下,需要引入更多的存储节点才能满足计算的需要,存储的成本会随之提高,同时也在一定程度上限制模型向更大规模和更高复杂度发展。
GPU利用率高则可以加速矩阵运算、张量运算等大量复杂计算任务,减少训练周期的同时,让硬件资源被充分利用起来,降低能源消耗。而低GPU利用率可能导致GPU长时间处于低负载运行状态,GPU 算力和能源浪费较大。
洞察到这些发展趋势的焱融科技,去年年底立项,今年9月拿出了面向大模型时代的里程碑产品——焱融全闪F9000X。

该产品搭载了其自研的高性能分布式并行文件存储YRCloudFile,经实测,3节点存储集群的性能可达到了750万IOPS和270GBps带宽,满足大规模训练及高算力场景的需求。
在带宽、模拟GPU数量、GPU利用率这三大关键指标中拿下第一的焱融全闪F9000X,无疑成为大模型训练、推理过程中选择存储系统的最优解之一。
这背后的关键正是焱融科技所做的针对性优化。
为了保证存储系统的性能匹配大模型训练、推理业务场景的需求,张文涛称,面向高性能存储场景,性能就是他们最优先考虑的。研发人员进行了NUMA的亲和性、端到端的zero-copy(零拷贝)等优化。
但对于企业而言,一方面,存储系统的性能固然重要,另一方面让存储系统变得好用、易用也同等关键。
因此,焱融科技还打造了相对应的解决方案。大模型时代,企业需要基于多个智算中心进行大模型训练、推理,那就意味着企业的数据需要在多云间进行流转。张文涛解释说,数据具有粘性,采用对应的解决方案能帮助加速数据的多云流转,减少企业使用和运维的复杂度。
大模型在问世之后,基础设施投入巨大,因此企业对成本更为敏感,存储系统就需要兼顾性能和降本。焱融科技通过全闪和大容量存储相结合的形式,拿出了高性能、低成本的解决方案。
综合来看,整个大模型产业的急速发展,对存储系统提出了更高的要求,性能、稳定性和成本成为存储厂商必须越过的门槛。
深谙技术创新与企业需求的焱融科技,在拿出更强计算能力、更高性能数据存储的方案后,为大模型时代的企业探索出了一条行之有效的路径。
本文转载自:,不代表科技讯之立场。原文链接:http://articlef.yulepops.com/article/m-164/1/312202412041323295711494.html