案例分析:数据中心搬迁百日攻坚战
DOIT博客 发表于:10年04月29日 17:59 [来稿] 服务器在线
2008年5月,旧厂房改造装修工程启动,太平洋保险内部称之为“201”装修工程项目。招标公告显示,“201”装修工程项目一期投入资金1500万元,二期投入7000万元。
按照规划,建成之后的太平洋保险新一代数据中心,总建筑面积7500平方米、净机房占地面积3000多平方米。
实际上,在2005年,太平洋保险就曾在上海南汇区建设了一个数据中心,规划满足3~5年内的使用需求。然而,仅仅2年多时间,南汇数据中心就显得捉襟见肘,电力供应不足、机房容量饱和,难以满足业务增长和集团IT建设的需要。
南汇数据中心投入使用之后的几年间,太平洋保险的业务量几乎呈直线型增长,与此同时,太平洋保险从2001年起逐步规划实施的集团IT大集中和信息化整合,也不断取得新进展。
“当时,我们要从分布式的IT架构逐步转向IT大集中,并在2006年成立了集团层面的IT运行中心,恰好赶上业务迅速增长,一时间所有的压力都集中到了数据中心。” 太平洋保险(集团)股份有限公司信息技术总监黄雪英说。
“为了缓解南汇数据中心的饱和压力,原本计划用于办公的南汇数据中心三层,被改造为机房。”太平洋保险(集团)股份有限公司IT运行中心总经理徐建国说。不过,这些努力都未能本质上改变南汇数据中心的饱和压力。
“我们还尝试过计划租用一些外部机房以缓解南汇数据中心的紧张局面。”黄雪英说,“但是,经过一番寻找,我们发现根本没有符合要求的机房。最终我们认为只有现在的废旧厂房可以满足机房尺寸、高度各方面的条件。”
在新一代数据中心所在的田林路旧厂房改造装修的同时,由集团总裁亲自挂帅、各业务部门领导组成的数据中心搬迁领导小组也宣告成立,黄雪英则担任工作小组的负责人。这使得搬迁项目启动之初,就已在组织上得到了强有力的保障。
2008年5月,太平洋保险新一代数据中心搬迁项目正式启动。数据中心搬迁工作小组随即进行应用系统梳理及基础架构设计,并在2008年10月份完成应用梳理,2009年5月份完成基础架构设计。2009年5月中旬开始数据中心基础架构搭建,7月份完成系统开发测试的搬迁工作,8月20日生产机房开始正式搬迁。
从2009年9月11日第一次系统试点切换,到12月19日新一代数据中心的关键应用系统全部实现安全迁移,太平洋保险只用了100天的时间,就完成了南汇数据中心到新一代数据中心的安全搬迁。
对于太平洋保险来说,新一代数据中心搬迁,并不仅仅是一个单纯的物理搬迁过程。
在此之前,必须对现有的180多个系统进行全面梳理,找出系统之间的逻辑关系,以确定这些系统的搬迁顺序。
“借此机会,我们希望将这么多年IT系统重新梳理,对于太平洋保险的IT基础来说是一次划时代的革新。” 太平洋保险(集团)股份有限公司信息技术总监黄雪英说。
早在数据中心搬迁工作启动之初,太平洋保险就对整体数据中心搬迁工作进行了详细规划。在历时一年半的项目规划中,系统应用梳理和基础架构的设计无疑是耗费时间最长的阶段。
从2008年5月数据中心搬迁项目启动到2009年5月,太平洋保险IT团队用了整整一年时间,完成系统应用梳理和基础架构的设计。
据太平洋保险(集团)股份有限公司IT运行中心副总经理程平介绍,基础架构的设计主要是针对机房空间、供电、散热、安全和虚拟化应用的考虑;应用梳理是从未来集团信息化管理角度对原有各类应用从项目角度进行梳理,理清相互间的关联关系。
系统应用梳理和基础架构设计工作主要分为三大阶段:2008年5月开始系统应用梳理;从2008年底到2009年5月,完成基础架构设计(网络隔离、虚拟化监控、数据备份等);从2009年5月份到2009年8月,新一代数据中心完成硬件设施的搬迁以及新数据中心生产系统的正式启用。
运维难题
一直以来,太平洋保险IT团队的工作重点都放在信息系统的建设,从支撑业务的角度完成一个又一个项目,并没有真正对所有的信息系统做过一次详细梳理,弄清楚系统之间的逻辑关系。
“在没有进行数据大集中之前,太平洋保险与大部分金融企业一样,整个集团的IT架构是分布式的,直到2006年才正式成立集团层面的IT运行中心,而IT运行中心成立前,运维、开发混在一起,没有进行专业化分工,这都为以后的系统建设埋下隐患。”黄雪英说。
早期开发的一些系统,并没有形成固化的开发和运维流程,相应系统与其他系统的关联关系也往往没有形成严格的文档。由于很多都是开发人员参与后期运维,文档不全、权限不清的状况在短期内并没有给运维造成太大障碍。后来,由于IT员工的更替,了解相应系统开发过程的运维人员越来越少,让IT运行中心逐渐感受到了运维的压力。“在日常运维过程中,我们经常发现虽然系统能用,但以前的文档都找不到了,系统开发人员也不在,很多运维人员经过第二轮、第三轮的接手,对于整个系统并不清楚,出了问题更是无从下手。”程平说。
在系统应用梳理过程中,程平发现,有很多老系统,参与过开发的IT人员早已不在,经过运维人员一代一代传下来,对于系统如何开发、存在什么问题等等都不知道,这就造成了很多“黑户口”的存在。一个系统可能不仅仅跑了一个应用,由于当时资源紧张等特殊因素,很可能其他一些应用也寄生其中。这些问题伴随着开发人员一波一波地更替,逐渐被人们淡忘,为以后的生产系统埋下了隐患。
“黑户口”的存在,正好解释了一些日常运维中出现的让人啼笑皆非的“诡异”现象。当某个系统关闭之后,有时候会出现一些看似毫无关联的系统随之不能正常使用的现象,原因就是这个系统内部寄生了一些其他应用。
事实上,不仅是太平洋保险,在众多信息化建设开始较早的企业中,这种情形时常发生,却很难解决。在没有太多外部成功经验可供参考的情形下,太平洋保险希望解决“黑户口”问题,无疑是一项充满挑战的工作。