项目概况
中国电信先前已经部分建成运营支撑系统并投产使用,其系统承载于DCN网络之上,涉及众多厂商设备及应用软件,从厂商划分,有IBM、HP、SUN主机;从操作系统划分,包括IBM AIX、HP_UX、SUN Solaris、WIN2000等操作系统;从应用软件和数据库来划分,包括BEA中间件、Oracle数据库、SQL2000、第三方应用软件等,由中国电信各省系统维护小组负责运营及维护。在道隆华尔公司未实施BMC的IT服务管理解决方案之前,中国电信各省采用系统维护工程师定期手工进行系统状态检查,进行一次例行检查需要消耗半天时间,也只能反应当时的系统状况,而大部分的情况是要在接到业务部门的事故报告后才知道设备、系统或是应用软件出了故障,系统的运行管理工作处于比较被动的局面,缺乏有效的技术手段和措施来保障系统的安全运行。
解决方案
利用BMC软件公司的PATROL系统管理方案,和道隆华尔多年对系统管理软件的摸索和项目经验的积累,对21省(每省×30多台主机的系统规模)实现了对结算系统中主要的系统资源及关键业务的有效监控和管理,降低了管理系统的复杂性,提高了系统管理人员的工作效率,保障了数据和关键应用的可靠性。
实施效果
实现如下功能:
1、集中监控和管理,实现对各省综合结算系统主机(HP-UX、AIX、Solaris、Windows)、数据库(DB2、Oracle、Sybase、Informix)及应用系统的监控管理。
2、性能分析和容量预测。
3、通过其先进的表格及图形功能向用户提供先进的管理报表。这些表格包括条形图形及3-D表格,可以向用户展现更生动直观,可视性强的可分析及关联的监控参数。
4、管理员可很快地查找到有关参数的数据,事件的历史性记录及告警信息或通过PATROL控制台所指定的数据点来访问恢复操作的输出结果。
5、实现对所有被管理对象的监控→WEB方式浏览→电子告警→事件分发处理等一系列监控管理动作。在系统出现异常时,发短信告警。
6、实时显示发生的事件和该事件的详细信息,能深层次挖掘出事件的原因,在图形化显示界面上实时显示被管对象的状态,能用图表和报表从数据库的历史数据中显示企业的运行趋势及规律。
通过项目的实施,中国电信各省用户对提高系统运行的可靠性等方面的表现有如下认识:
- 减轻了值班人员的工作强度和压力。在机器发生故障后会自动发出语音报警,并拨打值班人员的传呼机,使值班人员不必每时每刻守着机器,减轻了工作强度。
- 提高了故障恢复的速度。能将INFORMIX和应用系统自动重起,并自动清理文件系统,大大加快了故障恢复的速度,使前台业务的中断时间大大缩短。
- 对整个系统的运行状况有了完整、详实的了解。可以一天24小时采集数据,数据最多可以保存一年,并可以打印保存,这样就生成了系统运行档案,对系统的运行状况随时都能有全面的了解。
- 对系统的性能优化提供了有力的依据。通过对操作系统,数据库和应用系统进行全面的监控,并可以根据需求很方便地增加对某一对象的监控,对超过警戒值的参数在进行报警的同时,提出对故障恢复的建议,对系统性能优化,提高系统管理水平有很大的帮助。
|