科技it吧 关注:12,654贴子:2,549
  • 1回复贴,共1

浪潮信息AS13000G7:满足AI严苛存储需求的利器

只看楼主收藏回复

如果说2023年是全球对生成式AI(GenAI)初步认识的阶段,那么2024年则是全球各大组织/企业深入探索人工智能商业价值的关键之年。
随着生成式AI等人工智能技术被越来越多的用户采纳,存储等数据基础设施正面临着前所未有的挑战,用户愈发意识到存储系统必须满足人工智能数据训练与推理在性能、延时、容量、扩展性等方面的严格要求。
近期,在最新发布的MLPerf AI存储基准评测中,浪潮信息的分布式存储平台AS13000G7凭借其创新技术,显著提升了数据处理效率,在8项测试中取得了5项最佳性能成绩,实现了集群带宽360GB/s、单节点带宽达120GB/s的卓越表现,充分展示了其在满足AI场景下高性能存储需求方面的强大能力,为大规模数据处理和AI应用提供了坚实的基础。


IP属地:湖北1楼2024-11-30 21:36回复
    不仅是“容器”,还是“加速器”
    在传统观念里,存储等数据基础设施就像一个存储数据的“容器”;进入到AI时代,在各种AI应用场景中,存储则摇身一变,成为推动AI应用和推动AI产业化的“加速器”。
    以此次MLPerf测试为例,通过运行一个分布式AI训练测试程序,模拟GPU计算过程,要求在GPU利用率高达90%或70%的条件下,以存储带宽和支持的模拟 GPU (模拟加速器)数量为关键性能指标,来评估AI训练场景下存储的性能表现,从而验证存储对GPU算力的加速能力。
    如果把计算节点比作“数据工厂”,存储介质则相当于数据仓库。提升存储性能,意味着用户能够在同一时间内通过“存储高速”在“数据工厂”和“数据仓库”之间更高效地存取“数据物料”。

    例如,人工智能的大模型训练数据加载、PB级检查点断点续训(其中,检查点相关开销平均可占训练总时间的12%,甚至高达43%)和高并发推理问答等场景下,存储系统的性能直接关乎整个训练与推理过程中GPU的有效利用率。尤其是在万卡集群规模下,相当于规模庞大“数据工厂”,“生产机器”GPU一旦开动,如果没有及时输送“数据物料”,约等于让GPU闲置。有数据显示,存储系统1小时的开销,在千卡集群中就意味着将浪费1000卡时,造成计算资源的损失和业务成本剧增。


    IP属地:湖北2楼2024-11-30 21:52
    回复