北京2021年11月11日 /新闻稿网 - Xinwengao.com/ — 随着新基建逐步发展落地,现代数据中心迅速崛起,数据量呈指数级增长,同时各种新存储介质和技术的应用,使得存储系统变得越来越复杂。在运维管理上,完全依赖人工已经不能满足需求,企业将更多依靠人工智能进行自动化运维,Gartner认为AIOps的广泛应用将让IT基础设施管理变得更主动、更具预测性,减少管理和停机成本。

存储智能管理就是通过AI技术实现存储自治,即自我管理、自我修复、自我调优,提高存储系统的性能、稳定性和易用性,降低存储使用的复杂性,简化运维,使存储设备永远保持在最优运行状态,加速数据在线。

近几年,浪潮一直在致力于该方向研发和探索新特性,目前推出了智能管理软件InView包含了4个预测和2个自动化智能运维功能特性。四个预测分别为包括提前两周识别风险磁盘,降低数据丢失风险;智能预测性能增长需求,预知性能瓶颈;智能预测容量增长需求,给用户提供科学、准确的扩容建议;预测SSD使用寿命,精准到天。两个自动化分别为性能瓶颈分析,通过端到端诊断分析,快速发现存储性能瓶颈状态,并能定位根因;性能自动调优,结合应用场景和用户IO模型,自动挖掘最优的客户端配置和存储端配置,并主动推荐配置给需要的存储系统和用户。

为什么需要性能自动调优?

目前的存储系统中具有大量的可调参数,以浪潮分布式存储系统AS13000为例,系统软硬组件多,内、外部参数多达两千多个,且90%的参数为数值型和布尔型,参数的可调范围非常大,修改这些参数往往会对系统性能产生不同的影响。通常默认的参数配置由供应商提供,这些参数值的组合一般都不是最优的参数集合。研究表明,即使调整一小部分的参数值,也可以将系统的能耗和性能效率提高数倍以上。

传统的参数调整是由系统管理员依据自身的专业知识和经验完成的,由于存储系统的复杂性不断提升,手动调参将较难适应大规模的存储系统,并且人工调参具有无法全天候的监控以及高额的人力成本等问题。如何结合具体应用场景,在存储默认配置和性能数据基础上,自动挖掘最优的存储配置,并主动推荐配置给需要的存储系统,对存储系统的性能优化具有重要意义。

浪潮分布式存储参数分布
浪潮分布式存储参数分布

浪潮存储:基于InView性能自动调优技术,将带宽提升41%、时延降低29%

在自动调优中,强化学习是一个非常好的解决方案,强化学习(RL)是机器学习的一个分支,涉及代理(agent)如何在当前环境下采取行动(action)以最大程度地获得回报(reward)。与监督学习和无监督学习不同,强化学习通过试错机制,与环境进行互动并获得奖励,从奖励中进行学习。

强化学习工作原理
强化学习工作原理

关键算法采用的是2016年谷歌DeepMind提出的DDPG算法,算法包含Actor网络和Critic网络,其中Actor网络可根据环境当前运行状态输出连续动作,Critic网络可对当前环境运行状态和实施的动作进行评估打分,两者相结合,适用于高维连续动作场景。这是首次使用强化学习方法学习和推荐存储系统参数。

性能自动调优整体架构
性能自动调优整体架构

浪潮智能管理软件InView强化学习进行存储系统参数调优整体包含三个模块,分别是用户的应用、分布式存储系统AS13000以及调优模块。其中,参数推荐引擎可根据浪潮分布式存储AS13000的当前状态生成最佳配置,负责将最佳配置动态下发给AS13000,AS13000负责响应客户端的IO读写请求,性能指标采集器负责采集AS13000在新配置下的状态信息并计算在新配置下的性能提升效果,深度学习引擎根据AS13000的反馈迭代更新Actor和Critic网络。该过程迭代直到模型收敛,最终将找到最合适的参数设置。

浪潮InView性能自动调优系统具备端到端参数自动调整、提升网络带宽同时降低网络时延、参数的调整不影响集群正常运行三大特点,具体实验效果如下:橙色框中的前360步,模型随机探索学习,红色框为360步之后,模型自动推荐参数,相比默认配置(黑色框中的点),平均带宽提升41%,时延降低29%,调优效果与性能专项组专家经验相当。

自动调优与默认配置效果对比
自动调优与默认配置效果对比

随着云、大数据、人工智能、区块链、5G等新技术与实体经济将加速融合,中国存储市场未来5年复合增长率将达到8%,其中全闪存储和分布式存储将持续高速增长。浪潮存储基于“云存智用 运筹新数据”的理念,将在包括分布式和集中式存储的平台及智能管理软件领域持续加大投入与创新释放数据价值加速企业数字化转型。