开云「中国」Kaiyun·官方网站-登录入口以致高达43%)和高并发推理问答等场景下-开云「中国」Kaiyun·官方网站-登录入口
新闻中心
发布日期:2026-01-03 09:22 点击次数:126

2023年鲜艳着环球对生成式AI(GenAI)领略的开赴开云「中国」Kaiyun·官方网站-登录入口,而2024年则预示着环球各大企业和组织将全面挖掘东谈主工智能的交易后劲。跟着生成式AI技能日益被用户遴选,存储等底层数据架构正濒临着前所未有的挑战,用户愈发果断到存储系统必须知足AI数据进修与推理在性能、延时、容量和推广性等方面的严格要求。
近日,在最新发布的MLPerf AI存储基准评测中,海潮信息散布式存储平台AS13000G7通过一系列革命技能,权贵进步数据处理后果,勇夺8项测试中5项性能最好收成,竣事集群带宽360GB/s、单节点带宽达120GB/s,在知足AI场景下的高性能存储需求方面展现出非凡智力,为大鸿沟数据处理和AI应用提供坚实基础。
不仅是“容器”,如故“加快器”
在传统不雅念里,存储等数据基础步伐就像一个存储数据的“容器”;干与到AI期间,在多样AI应用场景中,存储则白衣苍狗,成为鼓励AI应用和鼓励AI产业化的“加快器”。
以这次MLPerf测试为例,通过初始一个散布式AI进修测试模范,模拟GPU缱绻历程,要求在GPU专揽率高达90%或70%的要求下,以存储带宽和复旧的模拟 GPU (模拟加快器)数目为要道性能谋划,来评估AI进修场景下存储的性能进展,从而考证存储对GPU算力的加快智力。
张开剩余86%若是把缱绻节点比作“数据工场”,存储介质则相配于数据仓库。进步存储性能,意味着用户简略在磨灭时期内通过“存储高速”在“数据工场”和“数据仓库”之间更高效地存取“数据物料”。
举例,东谈主工智能的大模子进修数据加载、PB级查验点断点续训(其中,查验点有关支出平均可占进修总时期的12%,以致高达43%)和高并发推理问答等场景下,存储系统的性能胜仗关乎通盘进修与推理历程中GPU的有用专揽率。尤其是在万卡集群鸿沟下,相配于鸿沟强盛“数据工场”,“坐褥机器”GPU一朝开动,若是莫得实时输送“数据物料”,约就是让GPU闲置。特等据自大,存储系统1小时的支出,在千卡集群中就意味着将奢华1000卡时,酿成缱绻资源的损成仇业务本钱剧增。
那么,要竣事“数据物料”的快速高效运送,不错从存储哪些看法脱手?
其一,减少中转站--数控分离。通过软件层面的革命,将甘休面(数据工场)和数据面(介质仓库)分离,减少数据中转,裁减传输旅途,进步存储单节点及集群的举座性能。
其二,加多车谈数--硬件升级。硬件层面遴荐新一代的高性能硬件,通过DDR5和PCIe5.0等,升级存储带宽,加多传输通谈数目,进步存储性能的上限。
其三,物料就近存储--软硬协同。在软硬协同层面,基于数控分离架构,自主甘休数据页缓存(储备仓)分派战略,天真诊治内核数据出动,数据就近得回,从而竣事快速I/O。
接下来,咱们将逐个先容这三大性能进步技巧背后的竣事旨趣极度主要价值。
软件优化
数控分离,谴责80%节点间数据转发量
在传统散布式文献系统中,数据和元数据高度耦合,导致数据读写信息的分发、传输和元数据处理王人需要经过主存储节点。在AI应用场景下,跟着客户端数目激增和带宽需求扩大,CPU、内存、硬盘和相聚I/O的处奢睿力濒临严峻锻练。尽管数控一体的散布式文献系统在领悟性方面进展优异,但在面对AI进修等大I/O、高带宽需求时,其性能瓶颈渐渐流露。数据需通过主节点在集群里面进行转发,这不仅占用了多半的CPU、内存、带宽和相聚资源,还导致了数据传输的蔓延。
为处理该问题,业界曾尝试通过RDMA技能来进步存储带宽。RDMA允许外部建设绕过CPU和操作系统胜仗走访内存,从而谴责了数据传输蔓延并收缩了CPU负载,进而进步了相聚通讯后果。干系词,这种花样并未从根柢上处理数据中转带来的蔓延问题。
基于此配景,海潮信息革命自研散布式软件栈,遴荐全新数控分离架构,将文献系统的数据面和甘休面统统解耦。甘休面主要追究照顾数据的属性信息,如位置、大小等,通过优化逻辑甘休和数据照顾算法来提高存储系统的走访后果和数据一致性。而数据面则胜仗追究数据的读写操作,排斥中间表情的数据处理蔓延,从而裁减“数据物料”的存取时期。
这种数控分离的花样权贵减少数据流在节点间的转发次数,谴责80%的东西向(节点间)数据转发量,充分阐扬硬盘带宽,极度是全闪存储性能。以海潮信息散布式存储平台AS13000G7为例,在疏导成立下,比拟于单一TCP和单一RDMA决策,数控分离架构简略带来60%读带宽进步和110%写带宽进步。
硬件升级
拓宽传输通路,竣事有储性能翻倍
在AI应用场景下,“数据物料”的快速运送依赖于高效的“存储高速”通谈。跟着CPU、内存、硬盘等硬件技能的束缚革命,升级“存储高速”通谈的硬件成为进步存储性能的过错路线。
海潮信息散布式存储平台AS13000G7遴荐业界最新高端处理器芯片,如Intel第五代至强可拓展处理器,单颗最大复旧60核,复旧Intel 最新2.0版块睿频加快技能、超线程技能以及高档矢量拓展教导集512(AVX-512)。同期,复旧DDR5内存,如三星、海力士的32G、64G高性能、大容量内存,单根内存在1DPC1情况下,不错复旧5600MHz频率,比拟与DDR4的3200MHz的内存,性能进步75%。
基于最新处理器的硬件平台,AS13000G7还是复旧PCIe5.0圭臬,并在此基础上复旧NVDIA最新的CX7系列400G IB卡及海潮信息自研PCIe5.0 NVMe。相较于上一代AS13000G6的PCIe4.0的I/O带宽,竣事带宽进步100%。
在想象上,G7一代硬件平台将硬件模块化想象理念最大化,将处理器的I/O一谈扇出,遴荐线缆、转接卡等圭臬想象,竣事成立的天真性。最大可复旧4张PCIe5.0 X16的FHHL卡,总共后端的SSD建设均通过直连竣事,取消了AS13000G6 的PCIe Switch想象,从而排斥了数据链路上的瓶颈点。前端IO的性能及后端IO的表面性能均进步了4倍。
为测试性能进展,海潮信息将两种软件栈分别部署在两代硬件上并进行读写测试。结果自大,与上一代硬件平台比拟,在不同软件栈上AS13000G7的性能可进步170%-220%,有用保险了AI应用场景下的存储性能。
软硬协同
内核亲和力诊治,内存走访后果进步4倍
在刻下的AI基础步伐平台中,缱绻职业器成立相配高,更高性能的CPU和更多的插槽数带来了NUMA(Non-Uniform Memory Access)节点数据的加多。在NUMA架构中,系统内存被分袂为多个区域,每个区域属于一块特定的NUMA节点,每个节点王人有我方的腹地内存。因此,每个处理器走访腹地内存的速率远快于走访其他节点内存的速率。
干系词,在多核处理器环境下,会产生多半的跨NUMA远端走访。在散布式存储系统中,由于IO苦求会经过用户态、内核态和远端存储集群,中间平时的高低文切换会带来内存走访蔓延。如下图,在未经过NUMA平衡的存储系统中,存储的缓存空间聚首在单个NUMA节点内存内。当IO苦求量增大时,总共其他NUMA节点的CPU核的数据走访均聚首在单个Socket内,酿成了多半跨Socket 、跨NUMA走访。这不仅导致了CPU核的超负荷运送和多半闲置,还使得不同Socket上的内存带宽严重不平衡,单次远端NUMA节点走访酿成的细小时延积聚将进一步增大举座时延,导致存储系统团员带宽严重下跌。
为了谴责跨NUMA走访带来的时延,海潮信息通过内核亲和力诊治技能,在全新数控分离架构下,使内核客户端可自主甘休数据页缓存分派战略并主动接纳用户下发的IO任务。这种花样简略愈加天真地竣事各种客户端内核态到远端存储池的数据出动战略。其中,针对不同的IO线程进行NUMA感知优化,将业务读线程与数据自动分派到疏导的NUMA节点上,这么,所特等据均在腹地NUMA内存掷中,有用减少了高并发下NUMA节点间数据传输,谴责了IO链路时延,4倍进步内存走访后果,保证负载平衡。
要而论之开云「中国」Kaiyun·官方网站-登录入口,步入AI期间,存储性能已成为估量东谈主工智能进修、推理及应用后果的要道身分。海潮信息散布式存储平台AS13000G7凭借其软件层面的优化、硬件步伐的升级以及软硬件的精熟协同,展现了非凡的性能,无疑是AI期间用户的理思存储处理决策。
发布于:湖北省Powered by 开云「中国」Kaiyun·官方网站-登录入口 @2013-2022 RSS地图 HTML地图