建立it运维管理制度提高it运维管理能力

通过建立it运维管理制度提高it运维管理能力,最终提升综合it信息管理水平。参考本IT经验你可以快速建立自己的运维管理流程。本流程将包括监控、变更管理、备份、项目管理、运维支持、例行工作等方面的流程制度。

具体it运维管理制度如下:

一.适用范围
IT运维中心所有人员,技术中心的相关运维人员。

二.执行时间
本制度经分管总经理审批后开始执行;只有在得到相关领导的审批后方可终止;本制度也将会根据实际的情况不断的做调整,经审批后将发布最新制度,同时终止对应旧制度。

三.具体it运维流程
监控方面it运维管理制度:
1.    要求做好各个环节的监控工作(服务器等硬件设备、电话网络、系统、数据库、应用平台监控);
2.    工作日内,运维值班人员8:30分到岗,做例行工作与监控;
3.    监控工作包括实时监控、日监控工作、工作日监控工作、周监控工作、其它监控工作;
4.    实时监控包括:
生产服务器状态;
应用平台是否正常运行;
业务数据库是否正常运行;
统计数据库是否正常运行;
电话网络状况;
5.    日监控包括:
每天监控各台数据库的运行空间、数据库服务器的状态;
每天检查生产数据库、备用数据库的数据准确性;
每天监控数据库的备份情况;
服务器空间使用、性能状况;
6.    工作日监控工作包括:
工作日对统计平台中的数据有效性做检查;
工作日对数据库定时处理程序做检查;
服务器空间;
应用程序器日志;
7.    周监控包括:
其它DBA日常维护工作的检查,详见DBA管理流程;
8.    其它监控包括:
定期对备份数据库做检查,保证其有效性;
9.    各个监控如果发现问题,要求记录到监控日志中;
10.    监控到问题,及时通知到受影响的其它人员;
11.    对于监控到的问题,如果不具有普通性(就是问题是第一次发生,以前没有发生过类似问题),要求向自己的直接主管汇报问题,如已经解决问题,同时报告结果;

变更管理方面it运维管理制度:
12.    生产环境上做任何调整,都要求提前在测试环境测试;
13.    生产环境上的任何调整,都要求对相关的原有程序、原有结构、原有配置做备份;
14.    生产环境上的任何调整,都要求在业务量小的情况下进行:
只是局部的调整,如一台应用服务器的调整,如果调整不成功可以在2分钟内恢复正常,调整对正常的业务影响不大,在测试正常的前提下,可以在闭市一小时后进行;
其它的调整,要求在晚上进行;
重大节假日,原则上不对生产环境做任何的调整;
BEGUG\故障处理例外,但要求及时汇报;
15.    生产环境上做任何调整,都要向直接上级汇报,通过后方可进行;重大的调整要求有调整方案或报告,在得到技术部经理同意后方可进行;
16.    生产环境上的任何调整,都要求记录日志;
17.    生产环境上的任何调整,一定要提前通知到可能受影响的其它人员、通知到相关的业务与运营接口人,并向直接上级汇报;
18.    生产环境上的任何调整,为了防止出现意外,避免人为因素的影响,要求由两个人一起来完成;
19.    调整正常后,要通知受影响的其它人员做测试,确认平台的稳定性、调整的正确性;

备份方面it运维管理制度:
20.    做好自己所负责的部分的备份工作;
21.    生产环境中的设备做冗余备份,出问题后可以及时恢复;
22.    做好数据备份工作;
23.    定期对备份情况做检查,保证其可用性,真实性;

项目管理方面it运维管理制度:
24.    项目负责人负责本项目的跟踪与管理;
25.    项目负责人要及时的把项目具体实施情况向相关人员做汇报;
26.    项目实施过程中出现问题,影响到项目的正常进行,问题自己不能控制,或者问题是由别的部门或别的公司的原因所引起的,要在第一时间通过书面的形式把问题和本项目的相关人员(包括相关负责人)解释清楚;

运维支持方面it运维管理制度:
27.    按要求做好一些日常的支持工作;
28.    为其他人员提供支持与配合;
29.    在答应的时间内完成相应的工作;如果由于其它原因导致不能按时完成工作,要提前一段时间通知对方,并向上一级主管说明情况;

例行工作方面it运维管理制度:
30.    按时完成例行工作;
31.    及时反映例行工作中发现的问题;
32.    例行工作不能完成提前告诉上一级主管;

其它方面it运维管理制度:
33.    运维人员在与其他人员交流过程中,重要事情要以书面与电话方式(其他人员不在现场)通知到对方,如果电话不通,要通过短信的方式通知;
34.    对于运维工作中出现的问题,及时的向一级汇报;重要问题逐级上报;
35.    每天做好工作日志,每周写好工作周报;
36.    执行公司的其它制度。

四.流程解释
1.    本制度主要是为了提高运维中心的一些具体运维工作的效率与质量;
2.    最终解释权归制定者与更高一级的领导;
3.    将根据制度执行人员提出的合理意见不断完善、补充。

上面的it运维管理制度是当年工作中实际执行的制度,在当时的环境中有很大的可执行性。it运维管理现在正在发展成一个相对独立的学科,市面上有很多it运维管理软件,可以实现IT运维自动化,有相对完整的运维知识体系。不过软件购买与相关知识的学习会增加企业运营成本。有兴趣的朋友可以搜索一些“IT运维管理”与“ITIL管理理论”做进一步研究。

建立一个有效的运维管理制度要有一个过程,在前面的文章快速提升IT运维管理能力中给大家提出六点建议,大家可以与本文一起参考阅读。

快速提升IT运维管理能力

中秋国庆即将到来,对于一些从事电子商务、从事互联网运营平台的企业来讲,假期可能还会有一些业务正常运营,中小型的企业没有专业的运维团队,如何短期内快速提升IT平台运维管理能力,在保证运营平台高效运转的同时让更多的员工轻松过节?笔者将从以下几个方面进行论述:

1.完善一个可行性强的假期运维流程与制度
如果企业原来就有运维流程或相关制度,那么要考虑现有流程是否适合节假日内使用。要增加或优化相应的节假日运维流程。可以根据节假日的特点做优化,比如,节假期间很多人是不在工作岗位上,流程中是否有单点责任人环节,如果联系不上此责任人,下一步将怎么进行。流程一定要简单实用,一定要有很强的可行性,要不然很容易出现不了了之的结果。

2.检查重要IT数据、平台的备份是否可用,建立有效的监督体系
这个工作看起来可有可无,但是这么多年来,总能听到看到备份数据异常导致的不可恢复的IT案例。不同级别的领导可以有针对性的对公司的备份数据做不同程度的检查工作。IT运维工作中要有适度的监督管理。一定记住,备份数据检查工作不单只是IT部门的事情。

3.关键IT运维平台要多准备不同的应急方案
关键IT运维平台一定要多做应急方案,可以把实际的故障想得更恶劣一些。比方就ERP平台出现不能正常使用的情况,应急方案中出现“运维人员远程登陆服务器解决问题”的应急办法,那如果ERP服务器所使用的网络也出现了异常又怎怎么办呢?远程登陆这时候就不可行了。多准备一些应急方案一定有好处。

4.重要IT环节做好节前事故演习工作
可以在你的非生产环境平台上做IT故障演习,可以有针对性的做一些恢复与应急的演练。重要环节可以在业务非高峰期在真实的运营平台上做演习,这样能发现更多的问题。当然在做演习前一定要做好相应的备份工作。公司的部分高管,如分管IT信息的总经理也可以参与进去,这样能有更好的效果。

5.节前准备工作尽量提前3-5天来进行
笔者就经历过几次节前准备工作负面影响的案例,原本是想对IT平台做好相关的优化工作,但是由于一些员工的工作疏漏,导致服务异常。分析原因发现,过节期前,本身很多IT运维人员要配合运营人员做很多平台调整;再加很多人早已经心不在公司,这样会使工作失误的概率增大。所以建议节前准备工作尽量提前3-5天进行。如果节前准备万一出现问题,相关同事都在上班,方便及时解决问题。

6.要有一个有效的沟通机制
有一个真实的例子,放假期间,公司运营人员下午发现短信运营平台不能正常使用,打电话联系运维人员。打了十几个电话也打不通,总提示“电话不在服务区”。然后该运营人员在晚上才打电话联系到运维人员,运维人员解决了问题。到公司后运维人员说运营人员没有联系到自己责任在运营人员;运营人员说打了很多电话都联系不上运维人员,责任在运维人员。所以一定要建立一个有效的沟通机制,比如,打电话打不通,是不是可以发条短信。运维人员看到短信后要及时与运营人员联系。要根据企业实际情况制定一个高效的沟通机制。

当然,IT运维管理能力的提升,还有很多方面要加强,比如知识体系的建立,团队的建设等,本身也是运营管理的内容,是一个长期的过程。但希望上面几点建议对你快速提升IT运维管理能力能有所帮助。