随着云计算、大数据、人工智能等新兴技术的兴起与应用,IT运维管理成为保障业务不间断运行的重中之重。面对各级营区成千的节点,近百种不同厂家的IT设备,为确保系统稳定及业务连续性,需要对每个节点的状态、性能进行实时监控,实时预警。又加上各单位运维人员信息化水平参差不齐,各单位营区较为分散,如设备出现故障,不能及时现场排查处理,因此用户单位亟需一套专业高效的IT综合运维管理系统。
某司研发的新一代综合运维管理平台,实现一个平台,管理所有IT资源。面向业务、面向管理者,通过对所有IT资源的综合监控,实现营区一张图可视化运维管理。新一代综合运维管理系统,已在1500家行业客户使用,其中在部委政务外网、内网覆盖率达到65%,在各军兵种均有应用落地。
一、新一代综合运维管理平台系统架构
新一代综合运维管理平台系统分为资源层、数据采集层、数据处理层、逻辑层和展示层五个层级,构建统一的智慧IT运维管理体系。
二、新一代综合运维管理平台系统功能介绍
(一)多维资源管理视图,全方位综合管理
统一资源管理,全面、动态掌握资源变化。BMC提供多维资源管理视图,对不同品牌、类型、版本的网络设备、安全设备、无线设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控、统一通信设备的等IT资源进行统一、全方位、多层次的综合管理,实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响,与CMDB相结合,完整掌握资源的管理属性。通过对资源的历史事件分析,了解其稳定性及衰减趋势,为投资决策提供依据。
多样式的网络拓扑呈现,满足多种场景化要求,实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。。在拓扑图上展现设备状态、链路带宽流量、告警故障;使用不同颜色、粗细、图标表示被管理对象的状态信息,颜色级别自定义;在设备上右键弹出菜单中,可查看、操作与该设备相关信息,如接口地址表、路由表、ARP表、VLAN表等。
1. 资源管理:通过协议方式自动发现多品牌、型号的网络设备、安全设备、主机、数据库、中间件、应用系统等IT资源,实时监控资源的性能指标,实现精细化管理。可支持思科、华三、中兴、Juniper、HP、锐捷等厂商的各类设备,如网络设备、服务器、数据库、中间件等,且能够通过IPMI监控服务器的物理健康特征,如风扇、电源、温度、电压等。可通过可视化的形式,展示AP及用户的分布密度及状态,并能够基于用户信号强度和区域AP退服率计算各个区域用户无线体验情况,并及时提示。
2. CMDB(配置管理数据库)管理:与资源管理双向关联,维护IT资源的管理属性,图形化展示配置项间关系,可定义配置项审计任务,生成审计报告,便于掌握资源配置的历史变化。
3. 网络拓扑管理:自动生成网络拓扑,实时掌握网络设备的运行状态和链路的连通情况,提供丰富图形化视图,包括位置分布拓扑视图、分级管理拓扑视图、逻辑管理域拓扑视图等。可通过拓扑自动布局,一键调整拓扑图的展现形态,如树形、星形、单圆形等。
4. IP地址管理:实现IP-MAC绑定,基准表按照IP地址范围、子网掩码设定网段信息,通过计算子网容量和规划率,展示IP地址的登记情况;接入监控可实时了解网络接入IP的状态,掌握网段中在线IP的情况及上联设备、上联接口、VLAN等信息。
5. 脚本监控:支持Action脚本,自动化执行脚本动作,可自定义指标,配置脚本策略,支持定时脚本监控和返回值告警,简化资源管理的复杂度。
6. 日志监控:支持Syslog、Windows日志分析及事件告警,主动获得日志信息,实现问题关联分析,提高问题诊断效率。XXX-BMC支持海量数据采集,数据采集时间可以提供多种自定义轮询频率,实现快速故障定位,降低系统故障导致的损失。
7. 知识管理:实现知识与解决方案积累与维护,当发生资源告警时,系统自动推送可能解决此类问题的相关知识。
(二)业务视角洞察总览,全面掌握IT健康水平
XXX-BMC综合业务管理中心将IT对业务的价值可视化,构建多种业务分析模型,从业务视角透视IT投资分布和价值收益。运维管理平台将IT基础架构及相关应用有效量化,并映射到它们支持的业务上,直观反映IT基础设施的动态变化对业务造成的影响和威胁,帮助管理者实现IT的精细化管理,掌控全局,准确衡量IT对业务的价值贡献,有力保障业务的健康、稳定运行。
从业务视角全面掌握IT健康水平,XXX-BMC为IT管理者提供一套简单、直观、有效的方法掌握全局业务的运行状态和健康水平,了解动态变化趋势,快速查明问题源,降低运营风险。同时,XXX-BMC构建了资源、应用系统、业务、用户的关联视图,直观反映IT资源的运行状况对应用系统、核心业务以及用户的影响,通过影响传递,准确反映IT异常可能对业务及用户造成的威胁,快速查明导致业务中断的故障源,帮助IT人员做出及时响应。
1. IT健康指数:创新设计IT健康指数分析模型,通过指数曲线呈现IT业务的健康水平和变化趋势,便于IT管理者宏观掌握IT业务的运行状况。
2. 业务健康雷达:呈现业务系统的健康水平分布,与IT健康指数功能联动,快速定位导致IT健康指数波动的原因。
3. 业务卡片:呈现关键业务系统的可用性、健康度、繁忙度的实时状态和周期变化,帮助IT管理者掌握每个业务系统的综合状况。
4. 业务服务一览:图形化呈现用户、业务和应用系统的相互关联关系,一方面掌握应用系统的异常对业务、用户的影响和威胁,另一方面实现IT与业务交互,将IT对业务的支撑价值完整体现。
5. 业务应用分析:构建业务应用分析模型,对各业务系统进行横向对比分析,包括健康度、繁忙度、可用性、宕机次数、宕机时长等,准确衡量业务系统的健康水平差异。
6. 业务拓扑:呈现业务系统与部门、IT资源及关键指标的关联关系,支持业务拓扑编辑、关键指标标注。通过影响传递,准确反映IT异常对业务、用户造成的影响和威胁。支持业务告警诊断。
(三)主动预防快速定位,及时洞察IT异常
XXX-BMC通过TOPN、趋势分析报表帮助IT管理者及早发现IT基础架构的缺陷和隐患;通过自动巡检功能做到主动预防,采用自动化手段针对核心业务系统及关键指标进行例行检查,定时产生巡检报告推送给管理者加以分析;事件台能够智能感知异常,快速定位发生源,识别异常的严重程度并加以过滤,及时、准确地发出告警;结合XXX-RMC,服务请求管理中心,实现整个事件处理过程的可视化,保持良好的服务水平;XXX-BMC还提供知识管理功能,形成事件维护记录的自然积累,IT人员可利用知识快速解决当前事件,极大提高事件的解决效率。
1. 事件告警中心:实现事件与告警分离管理,采用事件6级分类,精细化设定事件识别和告警规则,支持不监控时段设置,提供升级、过滤、根源分析等功能,确保准确性,避免告警洪灾;支持动态基线功能,系统自学习产生的推荐阈值为手工设定提供参考;通过桌面客户端、邮件、短信、微信、APP、声光等多种告警方式使相关技术人员及时获知异常,快速、及时做出响应。
2. 自动巡检:可预先设定巡检任务的时间、范围、指标、频度,XXX-BMC将自动执行,通过邮件方式推送巡检报告,从而降低人工成本,提高IT管理效率。
3. 知识库:实现知识在事件处理过程中的积累,在遇到同类事件时,可利用知识辅助参考,提高解决效率。知识库可有效提升IT人员的技术能力,成为IT组织的核心资产之一。
4.告警关联分析:自动显示告警设备与其他的关联关系、业务关系和网络关系,提取相关联资源的告警信息,以及告警同时的指标数值。便于进行相关性诊断。
(四)全3D机房、动环可视化管理
XXX数据中心管理系统,集可视化资源管理、机房动力环境管理、空间能耗管理、安防设备监控于一体。全景、高仿真模拟机房中监控点与设备的分布,实时监控他们的运行状态。与XXX综合管理平台的其它组件配合,可实现机房环境对业务影响的一体化管理、可视化IT资源管理、统一事件告警等,从而减轻机房维护人员的工作量,提高系统可靠性,同时丰富的告警及报表功能为IT管理者提供重要的决策依据。
1、全新3D引擎,实现全景、仿真的机房可视化管理
XXX-IFMC采用3D引擎,360度全景、仿真呈现数据中心机房中各监控点位置和机柜、设备分布情况,快速搜索,准确定位,在庞大的数据中心机房中瞬间位移至关注设备,与XXX-BMC连动查看设备详情,为IT管理者提供了IT资源管理的可视化手段。
1)、多机房管理:按地理位置分布,实现跨地域的数据中心管理,实时显示多个机房的健康运行状态。
2)、可视化机房:3D引擎构建仿真机房环境布局,可360度自由旋转,多角度查看机房细节。数据中心机房中的元素可灵活设置、拖拽摆放。实时监控数据中心机房环境指标变化,发生异常及时告警。图形化设备面板,与资源管理连动,查看资源详细信息。
2、多维信息看板,让管理不留死角
XXX-IFMC提供一个综合信息展示的Portal,用户可以自定义所要展现的信息、图表、视图等, 页面可自由设置、扩展,综合展现数据中心机房的关键指标,如:机房设备事件、空间统计、能耗监测、 关键性能指标等,使IT管理者实时掌握数据中心机房的每一个细节。
3、多达29种环境指标的采集与分析,全面掌握机房环境的实时变化
数据中心机房环境是一个复杂的组合体,任务一个微量变化,都可能对核心设备造成严重威胁。XXX-IFMC支持29种数据中心机房环境指标的采集与分析,全面掌握机房中每一个细节变化,实现精细化管理。一旦发生异常,都可以及时反馈,通过邮件、短信发出告警。
指标包括:
温度、湿度、水浸、精密空调、非精密空调、智能新风机、 非智能新风机、照明控制、粉尘、单相电量仪、三相电量仪、直流电压、直流电流、UPS、电池组、智能 配电柜、交流配电屏、直流配电屏、配电空开、防雷监控、电气火灾、烟感探头、温感探头、柴油发电机 、消防报警机、门禁、红外、门磁、玻璃破碎。
4、能耗和空间可视、量化,实现精细化成本管理,提升能源利用效率
XXX-IFMC为IT管理者提供能耗和空间的分析数据,通过丰富的统计图表直观反应能耗和空间的利用情况,通过PUE卡片掌握机房的PUE指标、二氧化碳排放量和相关能源成本,帮助IT管理者做好能耗和空间规划,提高能源、空间效率,更加节能环保,打造绿色数据中心。
5、视频监控提供真实、可靠的实时影像,机房安全更有保障
XXX-IFMC提供视频监控功能,通过实时影像采集、直播和记录,掌握机房真实状态,确保安全 。
随着各级营区单位业务系统的逐渐增多,以及云计算、虚拟化技术的广泛应用和普及,硬件设施已经不再是运维团队关注的唯一重点,如何为业务的稳定运行提供保障,确保官兵用户良好体验,逐渐成为运维团队的工作重点。新一代综合运维管理系统可做到,事前评估检查,事中实时感知,事后总结评价,覆盖重要业务保障运维全过程,使得运维过程可见、可控、可分析,让运维部门的感知能力和快速响应能力全面提升。