北京2022年1月29日 /新闻稿网 - Xinwengao.com/ — 中南大学是教育部直属全国重点大学、国家“211工程”首批重点建设高校、国家“985工程”部省重点共建高水平大学和国家“2011计划”首批牵头高校,2017年9月入选世界一流大学A类建设高校。学校“双一流”建设对算力的需求与日俱增,需要建设面向全校师生提供计算服务的开放性公共平台,一方面为学校的基础研究、前沿科学技术研究,以及促进科学探索和重大发现提供算力支撑,另一方面为促进学校的人才培养以及学校改革发展的“四个转型”夯实基础,以期在基础研究和科技前沿领域有所突破,从而进一步提升学校整体科研水平。

强强联手,打造高密度、低能耗5万核智算平台

中南大学与浪潮信息强强联手,打造了高密度、低能耗、易管理的智算平台,平台共有上千台设备,采用浪潮成熟稳定的计算和人工智能服务器以及浪潮AI微模块数据中心解决方案。在需要多数据计算的场景下,CPU会与内存进行频繁通信,浪潮信息NF5180服务器作为管理节点、登录节点以及计算节点,在1U紧凑空间内搭配两颗处理器,12根16GB的DDR4内存,极大限度地融合了各部件的优势,显著提高了内存带宽,降低了内存延迟,从而为每个CPU提供了访问本地内存资源的快速通道,相比传统2U服务器极大提高了部署密度,节约数据中心空间一半以上。

高密度部署的计算集群,空间被极限压缩,单位空间内堆叠更多的存储和计算单元,高密度的计算和数据传输伴随着设备的散热问题,如何破解服务器的大功耗、解决散热问题成为解决方案需要考虑的重要问题,这既是对产品质量的考验,更是对浪潮信息技术团队综合能力的挑战。浪潮NF5180导入无孔机箱,在机器堆叠场景下无需按照传统机架部署的方式预留散热空间,从而实现高密度部署需求;在通用计算场景下,单节点能耗将达到550W-800W,而在高强度高频次计算的时候,单节点能耗达可到1000W-1300W,CPU几乎满载负荷,所以浪潮NF5180在机器内部结构设计上,采用更具性价比的高密极致EVAC散热方案,消除散热不均引起的性能瓶颈问题,优化风扇转速,实现相同环境风压风流的情况下,散热能力提高30%;对风扇进行调优的同时导入蜂窝状波导网,对风扇入风处风流做整流处理,提高了风扇进风口的流速并且减少了紊流的产生。浪潮信息工程师团队通过在浪潮澎湃实验室的大量仿真模拟实验发现,加大波导网厚度还可以进一步提高空气压力,产生平行稳定且强劲的气流,从而带来更多的散热收益,使得机械硬盘的RV性能提升10%,让硬盘稳定性更佳。

除了技术的创新,NF5180产品的稳定性在中南大学智算平台也得到了充分验证,在试运行测试阶段,模拟全部断电的极端场景进行测试,断电重启后浪潮信息服务器设备全部点亮,没有一台出现故障,这完全得益于安全可靠的产品设计。浪潮NF5180从硬件、系统、固件等多个层面,多方位保障客户的信息安全和资产安全。通过双层电源防护设计,在PDU端及主板端增加保险装置,防止功率过载时对主板及元器件造成损坏。同时NF5180还导入了AMT技术,开机即对内存进行更为细致的自检,全面保障业务系统安全。在结构设计上,机箱选择了更好的钢结构材料,保障机箱不弯、不断、不碎、不变形。为应对严苛环境如跌落、振动带来的形变等安全隐患,浪潮研发工程师在最新服务器底板上设计了一条“拱桥”,在不影响出风散热、机器运维的情况下对机箱结构进行优化、加固,大幅提升结构强度,新的机箱通过了9级烈度抗震测试。

浪潮信息的服务器在出厂之前都要经过浪潮澎湃实验室科学、全面、严苛的测试验证,浪潮澎湃实验室下辖气候环境、机械环境、结构散热、电磁兼容、系统验证、精密测量、失效分析和数据中心共8大实验室,包括40余项测试大类,共2000余项常规测试以及30余项极限测试。数字技术已全面应用于实验室的各个测试流程,实现了服务器从设计、生产到出厂的全流程数字化、智能化品控测试管理。在过去近30年中,为浪潮信息从中国服务器市场第一跃升至全球第二提供了重要的品质保障。

自动化智能的精确纳管,为运维减负 

中南大学智算平台架构先进、软硬件完备、功能齐全,并可为用户提供充沛的算力资源,满足了学校科研人员大量的计算资源需求。但是,大量集中部署对管理和运维人员也提出了前所未有的挑战,传统运维模式已难以实现对计算服务器集群算力的精细化管理、调度和科学合理分配计算资源,算力应用处于黑箱模式,类似于盲人摸象,不清楚、不清晰,无法实现对计算集群快速且精准的有效运维,也造成了运维人员的沉重负担。面对如此窘境,浪潮信息采用ISPIM(Inspur Physical Infrastructure Manager)浪潮信息物理基础设施管理平台作为中南大学智算平台的运维管理系统,以“1+1+N高可用模式”,在5台服务器上部署ISPIM系统,主动采集频率为45min,监控指标可达150W+,覆盖智算平台内的所有设备。ISPIM系统高可用模式部署的示意图如下。


通过ISPIM提供标准的北向接口与CE(Cluster Engine)计算平台对接,可获取到集群计算节点中CPU、GPU、内存、网络、负载等信息及计算节点状态,实现算力的统一分配、调度、管理,配合内置的浪潮信息管理驱动软件Teye,可实现对设备带内性能指标的秒级实时采集及历史信息汇聚。同时ISPIM会基于AI算法,对采集到的所有设备的能耗、温度、气流、CUPS以及机房环境数据进行实时智能分析,推送能耗管理与优化建议,通过可视化拓扑呈现,3D建模展示数据中心内机柜位置、功耗、温度状态信息,实现对整个数据中心的细粒度管理。

通过部署浪潮信息ISPIM系统,中南大学智算平台实现了集中自动化管理,大大减轻了运维负担,另一方面,通过对算力数据的精准获取、调度,使得算力的管控集中化、智能化,同时通过对平台的监测,实现能耗可查、可管、可控。运维人员通过ISPIM平台可随时随地监控整个平台的运行状态,故障报警能够以秒级的速度精准定位,保障中南大学智算平台的高效有序运转,节约了人力资源,运维效率大幅提升。

随着整个社会数字化转型进程的加快,科学技术成为第一生产力,算力作为核心动能,不断为创新发展提供源动力,中南大学智算平台将有效地促进中南大学科学研究水平的提升,进一步推动科研成果的不断产出和拔尖创新人才的培养,为学校的“双一流”建设做出贡献。浪潮信息携手中南大学打造高校智算平台,取得了很好的效果,实现了合作共赢,相互成就。