为了提升数据中心针对突发事件的中国中心应急响应水平,使各信息系统在危机事件中能够得到及时有效的化工保护并在事件后能够快捷恢复,最大限度地减少数据和设备损失,信息2015年9月25日中国化工IT数据中心在顺义机房组织开展了2015年度应急演练活动。开展本次应急演练的危机目的是为检验《IT数据中心应急管理办法(应急手册)》中规定和描述的完整性及准确性,确保应急预案及其流程执行的应急演练家庭关系讲座顺畅和有效。
本次演练采取模拟和实际操作相结合的中国中心方式进行,即:故障报告和对外联系电话真打实拨,化工现场检查和操作模拟进行,信息紧急关机和恢复开机在预先准备好的开展专用测试环境实际操作。整个活动分演练背景与场景介绍、危机演练过程和演练讲评总结三个阶段,应急演练共计用时3小时。中国中心其中演练过程共十三步:市电中断问题发现、化工问题提升、信息确认UPS工作状态、确认发电机正常启动、确认ATS正常切换、发电机故障、健康饮食搭配升级问题、紧急关闭核心系统、联系修理发电机、发电机恢复供电、系统开机及应用恢复、市电恢复、应急状态结束。
IT数据中心对本次演练进行了长时间的详细准备。首先是健身塑形计划重新起草了应急管理手册,分系统制定应急预案,明确相关流程和关键人员/单位联络清单。其次是结合“5.16”事件策划了本次演练的具体场景:市电中断,数据机房进行应急处置;UPS正常工作,发电机启动后由发电机供电;随后发电机出现故障,在UPS供电情况下对核心系统(ERP/HR/协同办公系统)开始以保护数据及核心设备为主要目的的紧急关机。为了使演练具有实战性,针对生产系统非常庞大、停机操作相当繁琐的实际情况,IT数据中心研究开发出批量处理停机脚本,以缩短停机操作时间,确保在UPS电源有效供电时间内完成数据保护和核心系统安全停机。最后,编写了详细的演练剧本,并经过多轮的研讨和桌面模拟演练。
集团管信部、蓝星、昊华、农化和信息中心等公司领导及CIO受邀参加了现场演练。管信部领导及各专业公司CIO均对本次活动作了详尽的点评,在肯定IT数据中心近期运维成绩提升的同时,要求进一步重视系统维护及信息安全管理,强化安全管控相关的基础设施建设与保障;将安全管理与安全保密制度相结合,把IT数据中心应急管理办法形成制度并彻底落实到实际工作中;进一步强化IT数据中心机房人员的队伍建设,加强专业知识的培训;防患于未然,以技术规范和信息手段加强信息安全控制与防范。IT数据中心CEO程华军作总结发言,指出本次演练准备充分、过程有序、结果有效,基本达到了演练的目的,总体而言是成功的。同时针对后续工作提出三点要求:一是严谨总结演练过程,对发现的问题进行深入分析,针对问题根源提出有效合理的解决方案;二是IT数据中心以后要坚持两级定期演练,即中心层面每年进行一次正式的应急演练,各运维部门层面按季度或按月进行定期演练,每次演练要有明确的主题,要有针对性,要解决实际问题;三是本次演练技术上以测试环境为主,相关的应急开关机脚本也主要针对测试环境,因此针对生产环境的正式应急脚本也要抓紧开发和测试,在国庆或春节期间申请利用计划维护窗口进行实测,形成正式的、可行的应急措施。
本次演练是一次接近实战的操演,整个过程焦虑而有序,是数据中心系统运维的一次重要活动,受到了观摩演练活动的集团管信部领导、各专业公司领导及信息中心领导的高度认可。今后,数据中心将在向集团管信部和专业公司汇报其应急状态下响应能力的同时,更加突出近期IT数据中心开展的关于“运维提升—为谁提供服务、为谁创造价值”的行动主旨。