如何消除信息孤岛,实现数据中心信息共享,可能各有各的招。以某大型央企为例,为建立信息共享服务中心,企业建立了自运营的大型数据中心,预计全部建设完毕后,白地板面积将达到8000平米,容纳机柜4000个,设备60000台。而该数据中心将承载大量关键企业信息化系统,譬如人力资源管理系统、财务核算管理系统、资金管理系统、预算管理系统数以及各战略利润单元的ERP系统及其他业务信息系统近百套,运营部门面临极大的挑战,如何能耳聪目明,管理好这么多基础设施乃至于应用系统,依靠监控工具是一条必经之路。
让我们来看一下企业的现状,从信息管理部成立到现在不足5年,在工具上的投入呈现出条块化,已经基本实现了网络、存储、基础系统、虚拟化等领域的简单监控,但是工具之间既有交叠的部分,交叠的部分的数据在不同工具中存在不一致现象;同时又存在不少盲区,尚未纳入管理;各技术团队自己管理和使用自己的工具,告警信息也无法分享给其他技术团队,而且即便是分享了,其他团队也无法判断其重要程度及影响面,而监控告警信息作为事件流程的主要输入,其现状显然极大制约了运维的质量及效率,什么是理想的状态?又如何实现这一目标,成为运营团队的所需要解决的两大问题。
我们用几个问题来梳理我们的思路:
1、我们期望监控解决我们什么问题,达到什么目的?
首先,监控是运维的基础,要解决问题首先要发现问题,确定问题的严重程度和多个报警之间的关联关系,这样运维响应才有目的和效率,处置才能精准得当。当数据中心关联的子系统之间同时报警,那么该如何定位、判断故障呢?
其次,运营团队中不同的层级对监控的关注点和所需要的信息是不同的,如何获取高一致性的基础监控数据,并能通过DIKW(Data-Information-Knowledge-Wisdom)模式提炼出不同的信息切片,打造立体运营的管控信息平台。我们简单梳理归纳了一下不同层级的关注重点。
2、目标、原则及架构
显然,如果有一个工具能囊括动环、IT基础设施、虚拟化平台、操作系统、数据库、中间件以及各类企业应用,那是最理想的,但是现实往往是骨感的,这类大跨度、高集成的产品从前没有过,估计以后也难以问世。
我们希望引入BI和大数据分析的一些思路,利用数据集成清洗展现等技术来实现这一技术目标,形成统一监控平台。
拟定的以下建设目标和原则:
系统建设目标
1) 全资源监控覆盖
2) 关键领域深度监控
3) 系统具备高扩展性,应用业务的发展变化
4) 具备高精度和联动能力
5) 具备面向服务的应用监控能力
1) 使用尽量少的监控工具结合,覆盖全资源监控
2) 投资保护原则,尽量利用原有的监控工具
3) 监控系统的技术架构具备灵活性和集成能力
4) 监控系统的技术架构成熟,尽量减少二次开发的工作量
将统一监控平台的功能主要概括为三个层次,7大项功能:
系统层次:
信息展示层
1) ECC大屏监控信息展示、统一的运维Protal门户、移动终端展示
2) 基于角色的运维视图、3D可视化关联的告警视图、性能数据展现
ü 可根据集团/BU的不同角色定制展现视图,
ü 包括:ECC大屏,PCPortal和移动终端等不同形式;
数据分析层
3) 统一数据仓库集成性能、告警、配置等综合数据,进行数据分析,生成性能、告警及日常巡检报表。
4) 告警管理接收来自各种监控子系统的数据,对这些数据进行跨技术域的关联分析,并判断对应用的影响关系。
5) 同时,告警管理还通过数据的过滤、压缩、分类、丰富等技术手段,将真正需要关注和处理的故障事件从众多的信息中提炼出来,帮助提高运维质量和运维效率
6) 通过历史性能数据的保存与分析,可以查看被管资源的历史运行情况,判断其可用性与健康状况,定位故障
能够对汇聚上来的各类原始数据、性能数据、告警数据、日志数据等进行关联分析,形成各类分析报告和报表;
信息采集层
提供数据接口,采集各专业领域的监控数据,覆盖数据中心全资源。
可以直接采集各类纳管IT/非IT组件的数据,同时也可以灵活对接已有的各专业管理系统如网络管理、安全管理、机房管理、应用管理等;
3、建设路线规划及分步目标
由于统一监控系统是一项耗资巨大且非常复杂的长期工程,为减轻项目难度及风险,在建设时我们考虑采取分阶段实施的策略。阶段的目标及主要工作见下:
第一阶段建设重点:搭建设系统框架,覆盖全资源监控,夯实监控基础
第二阶段建设重点:整合应用监控,以数据分析、跨平台联动为核心
第三阶段建设重点:面向业务的监控,实现综合应用数据分析,掌控业务影响管理
根据经验估算,第一二阶段相对用时较短,在完善监控管理流程的前提下,前两阶段可通过运动式进行首次数据整理,后期仍需严格按照监控管理流程去进行运维,确保CMDB中CI项的完整性和一致性。而第三阶段则难度会较大,需要应用项目组的支持与配合,在应用系统中设置“探针”,进行个性化订制,建议采用逐个击破的方式来推进,耗时往往会较长。
以上对数据中心监控工具的经验谈,仅供参考。