太平洋保险数据中心搬迁百日攻坚战

DOIT博客 发表于:10年04月29日 17:59 [来稿] 服务器在线

  • 分享:
[导读]从2009年9月11日第一次系统试点切换,到12月19日新一代数据中心的关键应用系统全部实现安全迁移,太平洋保险只用了100天的时间,就完成了南汇数据中心到新一代数据中心的安全搬迁。
IT “赶考”

“新一代数据中心搬迁,是集团2009年两大风险项目之一,所以整个集团高度重视。”徐建国说。集团专门成立了由集团总 裁亲自挂帅搬迁领导小组,具体工作则由信息技术总监黄雪英领衔的工作小组负责,工作小组成员则涵盖了财险、寿险等众多业务单元的领导。

搬迁 领导小组全面审议每一次数据搬迁计划,定期召开搬迁工作会议,评估和管理搬迁工作的风险,并做好应对准备,落实IT设施的安装和配置。

有了 集团总裁层面的支持,搬迁工作小组对所有基础架构有足够控制能力,对资源有充分的准备能力。在系统搬迁过程中,虽然领导看到的是每个系统切换的最终时间, 但是背后每个系统都有一张详细、复杂的搬迁流程以及每个环节的具体时间。集团总裁更是对项目组明确要求:“要保证项目的万无一失,要对业务运行零影响。” 工作小组作为此次项目的主导者,在搬迁之前立下了“军令状”。

首先,项目团队讨论搬迁方法,通过前期的应用梳理明确每个系统对应的负责人以 及相关业务负责人。每个应用都可以找到对应技术上的负责人,业务决策上也可以找到应用负责人以及所属部门。

例如:财务系统的搬迁,影响范围 有多大,数据是否要修改,应用的应急方案等具体事项都由财务部门确定。所有要素界定清楚后,整个项目团队会做一个统一的模板以及流程模板。

同 时,项目团队制定了统一的流程模板,每个系统搬迁都会根据流程逐步实施。项目搬迁时,首先会给应用负责人一个流程,系统从切换准备到完成切换一共需要50 多个步骤。例如:第一个步骤需要信息确认,确认的内容,谁来确认,具体需要哪些人来配合,交付指标是谁,如何完成交付。第二个步骤是新环境的搭建,第三个 步骤是模拟测试,所有的工作每一个步骤分解到具体的负责人。每一步操作都会有指定的标准,每个应用负责人根据这些标准来执行。

虽然领导看到 的是最终系统切换进度,但每个系统都有自己的时间点,形成180多个系统庞大的矩阵图。每个项目的切换流程都一样,只是时间点不同而已。为了有效分配资 源,当一个系统在做功能性测试的同时,另外一个系统可以进入生产测试环境,每个应用由专属负责人负责整个搬迁过程,保证系统顺利切换。

“我 们将此次搬迁看作是太平洋保险IT团队的一次‘赶考’,项目组扮演校长的角色,我们要对整个升学率负全责。但校长不可能代替学生去考试,可以有很多模拟 题、很多学习的环境,但每个系统必须自己考,清楚自己的流程。”程平这样形容此次搬迁工作。

标准化流程

在 每一次系统正式搬迁之前,已经经过多次搬迁测试,工作人员很清楚搬迁的时间,同时对于搬迁过程有一定的把握。该系统需要多长时间的搬迁,回退时间是多少, 预估理想启用时间是多少,都会有一个明确的时间表。并且对外公告中,所有时间都会在前期模拟基础上留有一定冗余时间。

“一开始大家对于搬迁 都是估算,心里没有底。我们制定科学的搬迁流程及详细的搬迁进度表,使得所有的系统搬迁都严格控制在预定时间内,随着每一次搬迁的成功,越到后来大家越有 底气。”徐建国说。

所有批次的搬迁一般会选在周五晚上7点钟开始搬迁。所有系统切换分为技术上的影响时间以及系统回退时间、对外公告时间。 每一次的搬迁基本上都会在周六凌晨搬迁完毕。“如果这个期间出了问题,我们可以用周六、周日来做弥补,这样对于周一正常营业没有任何影响。”黄雪英说。

为 了明确每个系统搬迁的时间进度,项目组做了一个EPM指挥系统。系统会将搬迁任务分成几个环节,并且下发给各环节工作人员。应用切换指挥中心会收集所有信 息,并把切换任务书下发给工作人员,第一次切换中五个系统按照指令依次实施。

首先所有的业务系统启动应急方案,业务系统会有一个反馈,表示应急系统 已经准备好,整个过程由指挥中心控制衔接。每一个系统经过确认后都可以随时进行下一步切换工作,当系统技术确认以后,紧接着进入应用停止阶段,随后是数据 备份。

第二阶段是对数据的迁移,把生产上所有数据转移到数据中心,数据经过核实后进入应用恢复阶段,所有的应用会相应启动。这个过程中会对 所有配置进行调整,甚至包括客户端的指向。接下来进入技术验证阶段,所有运维人员负责验证技术,紧接着是业务的验证,业务人员会从分公司、总公司各个维度 进行验证。

第三个阶段是启动公告流程,这时候所有分公司都知道这个系统已经作为生产系统在运行。随着公告流程的同步,系统顺利切换之后,南 汇区数据中心会停止该系统备份,转接到新数据中心备份。

整个项目指挥中心设在陆家嘴的太平洋保险总部,总指挥中心团队负责搬迁环节的衔接步 骤。每次搬迁不仅有详细的流程,更做好充分的准备。系统切换如果出现重大问题可以按照回退机制返回,每次实际切换前都要经过多次试切。

工作 人员对每个系统回退的时间都很清楚。每个系统切换之前都会经过文档整理、验证、模拟测试、生产测试、数据切换模拟、业务演练等各个环节,同时太平洋保险也 设定了一些关卡使得切换更加科学、有序。

第一个是文档关卡。不管系统是从中途接进来还是自己开发设计,对于开发人员来说必须要有准确的设计 文档描述该系统。包括运行资料、维护手册,所有信息必须齐全。第二道关卡就是功能性测试,需要对前面所有文档进行验证。项目团队会派没有技术背景的人员来 验证系统,来测试系统是否可以顺利运行。

“这个检测非常有效,实际操作中,很多系统在开发环节使用很顺畅,一旦进入验证阶段,就发现系统无 法顺利交付。说明此前文档只是一个形式,不具备任何功能,文档还是停留在开发人员的脑子中。”程平说。

“一开始在这个环节中耽误了很多时 间,经过不断的磨合,系统真正变成了是可交付的,在生产测试阶段验证和最终搬迁完成后的系统是一模一样的。”徐建国说。

个别系统在生产中还 会要求压力测试,应用没有问题后会进行数据模拟切换。但所有方案做完后,每个系统需要至少做一次真实的数据迁移。第三道关卡是工作人员掌握需要多少时间完 成系统切换。正是经过前期多次模拟演练和测试,使得正式的系统切换中,没有发生一次意外。

[责任编辑:DOIT]
DOIT
IBM IGF作为全球最大的IT融资解决方案提供商,拥有近360亿美元的资产,目前在全球55个国家和地区开展业务,客户数超过12.5万家,在全球《财富》100强中有超过75%的企业是IBM全球融资部的客户。IBM全球融资部目前分为硬件、软件、技术服务、咨询服务、融资服务5个部门,能为客户提供端到端的IT融资解决方案,并以此促进IBM在全球范围的业务发展。
官方微信
weixin
精彩专题更多
联想发布“腾云计划”正式进入云市场,同时推出ThinkServer Gen5,在众说纷“云”的云时代里联想推出云战略正当其时,服务器产品线的更新便是联想云时代里前行的新生力量。
2014年11月6号,HPC China 2014大会在广州长隆酒店正式召开。本次会议由中国计算机学会主板,中国计算机学会高性能计算专业委员会、中山大学和广东工业大学承办。
思科UCS:突破性能极限 重新定义平台
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.