太平洋保险数据中心搬迁百日攻坚战
DOIT博客 发表于:10年04月29日 17:59 [来稿] 服务器在线
流程化管理
“对180多个系统进行梳理,相当于对所有系统在新平台上重新做一次上线工作。IT团 队一方面要忙于既定的工作,另一方面需要对原有系统重新梳理,制定手册,在系统梳理那段时间,大家经常轮换加班。”程平说,“虽然压力很大,但是大家普遍 认为这是一件非常有意义的事情。”
IT运行中心投入大量精力做应用梳理,理清每个应用部组件的关系,建立一整套CMDB关系体系,并设立信 息变更流程,所有信息由应用部门统一管理。当项目信息还没有报批的时候,相关的信息就已经进入CMDB中。从项目的分解到应用的所有者再到应用负责人所有 信息都会在CMDB中呈现。
经过近一年的努力,太平洋保险IT团队对180多个应用系统都做了手册,把原来缺失的文档补齐。使得手册真正可以交付 给生产、运营中心去做维护。“我们在这个过程中花了大量的心血,我们不仅梳理了各个系统间的相互关系,更把所有系统都以文档的形式做成手册,并在新 一代数据中心按照手册实际模拟演练,为以后的系统切换奠定了坚实的基础。” 太平洋保险(集团)股份有限公司IT运行中心总经理徐建国说。
与 此同时,IT团队针对新平台开发了许多新功能、新应用,对整个系统做了一次升级换代。通过建立开发手册,开发出来的系统直接交付运行中心部署、实施。“在 这个项目中,整个集团IT线条高度一致,目标明确,仅用了一年时间就完成了基础架架构的设计和应用系统梳理工作。”徐建国说。
手册中对开发 人员的权限做出了严格限制,过去,很多开发人员有生产环境的权限,相互间的关系难以理清。通过此次新一代数据中心搬迁的契机,太平洋保险对开发人员和运维 人员进行了严格的专业化分工,开发人员只管开发,运维人员根据开发手册负责运维,开发与运维之间通过文档交付,真正做到专业化分工,流程化管理。
“此 次数据中心搬迁,不仅仅是一次技术升级,更是对IT从专业化管理角度进行了一次全方位升级。”黄雪英评价道。
经过一年半时间的应用梳理和基 础架构设计,2009年9月11日,太平洋保险新一代数据中心项目正式进入最为关键的系统切换阶段。
然而,究竟是选择传统的物理搬迁方式还 是应用迁移的方式,新一代数据中心项目团队又一次面临两难抉择。物理搬迁适用于小规模搬迁,耗用资源少,但存在很大风险。应用搬迁风险小,有回退余地,适 合大规模重要生产系统的搬迁,但需要庞大的资源支持。
此次搬迁涉及180多个系统,各系统之间关联性又很强,一次整体搬迁过去,难以成功。 在此之前,南汇数据中心采用的是物理搬迁方式,但此次新一代数据中心搬迁以应用导向为主,太平洋保险最终决定采用应用迁移的方式。
分批次搬迁搬迁模式的难题刚解决,项目团队又遇到了更大的挑战。
由于采用应用迁移方式,需要大量硬件资源,同时工作 繁杂且工作量巨大,需要分批次逐步搬迁,造成在一段时间内两个数据中心同时都是生产中心。
“两个数据中心同时需要维护,还有大量搬迁测试工 作,相当于一下子工作量变成了平常的3~4倍,系统搬迁切换的3个月我们基本上早晚连轴转。”IT运营中心副总经理程平说。
按照原定计 划,2009年5月需要完成基础设施搬迁,但是由于恰巧赶上梅雨天气,基础设施搬迁直到8月份才完成,这就使得整个项目工期推迟了3个月。为了在预定期限 内完成搬迁任务,项目团队不得不将系统切换时间压缩到3个月。
此外,已经搬迁的应用和没有搬迁的应用都需要做广域网连接,如何保障这些系统 稳定性和安全性,也是项目团队重点考虑的问题。而对需要搬迁的系统进行科学的批次划分,无疑是确保稳定性和安全性的重中之重。
经过再三思 考,最终项目团队决定将180多个系统做个相互关系表,但发现系统之间的关系很紧密难以切分。于是,项目团队将所有系统做成矩阵模型,通过数学方法找出哪 些系统关联关系最强,最后分成了5个批次切换。依次是示范应用批次、第一批次财险的核心系统、第二批次寿险的核心系统、第三批次集团核心系统以及第四批次 次要系统。
为了避免数据大规模在广域网上传输,项目团队决定将财险系统与寿险系统分开搬迁。此外,由于第一次系统搬迁没有经验,期间可能会遇到很 多问题,项目团队将第一次系统搬迁定义为示范搬迁,选取5个具有代表性的系统。其他批次的系统搬迁数量都在25~30个系统之间。“第一次示范搬迁 的5个系统是我们精心筛选出来的,整个搬迁涵盖财、寿集团系统,有利于项目团队熟悉搬迁流程,同时也包含大型核心系统以及四川分公司老系统的搬迁。”程平 解释第一次示范搬迁5个系统的用意。
示范搬迁涵盖整个系统搬迁的方方面面,项目团队希望在第一次示范搬迁过程中,尽可能消化掉所有可能出现 的问题,为下一阶段的搬迁做好充分准备。
“当时整个集团筹备H股上市,已经到了最后的攻坚阶段,作为IT部门我们必须要给财务提供准确的报 表,如果9月11日第一次示范搬迁不成功,报表不能如期出来,整个上市会受到影响。”IT运行中心总经理徐建国说。
为此,项目团队在集团核 心财务系统搬迁上做了很多准备工作和应急方案,并且在财务系统切换当天就做好应急系统的维护,一旦搬迁不成功可以短时间内迅速恢复原状。