看这些数据中心错误有多蠢!
51CTO 发表于:10年08月18日 11:35 [转载] 51CTO
在导致数据中心故障的所有罪魁祸首中,技术问题所占比例很小,而人为错误却占据了大约70%的份额。由于某员工无意中把两条网线连接到一台错误的网络集线器上,整个校园网络陷入瘫痪状态;一名员工在进入一数据中心时由于路径不熟竟掉入"陷阱"而受伤;在数据中心的温控器设置被人从华氏温度改为摄氏温度后,系统由于过热而宕机。类似情况举不胜举,大多数据中心灾难并非缘自技术问题或自然灾害,而是人为失误。

根据数据中心性能研究机构纽约正常运行时间学会(UPTIMEINSTITUTE)所提供的数据,目前人为失误引发了大约70%的数据中心故障。该机构副总裁朱利安·库德里斯基(JulianKudritzki)表示,他们分析了4500起数据中心事故,其中包含400次完全宕机事件,最后得出如上结论。库德里斯基最近还发布了保持数据中心可持续性运营的一套指南。
库德里斯基称,该结论并不令人感到意外,"运营管理是你最大的弱点,但它也是避免宕机的最大机遇。好在你可以对数据中心人员进行重新教育。"
市场研究公司Pund-ITResearch分析师查尔斯·金(CharlesKing)表示,不管是因为大意,还是因为培训不够、最终用户干涉、资金紧张或简单的错误,人为失误是不可避免的。由于当今IT系统日益复杂,数据中心工作人员工作时间过长,一些本来可以避免的小故障却时有发生。而且随着企业越来越依赖于技术来达到自己的商业目标,这些错误已经变得更加危险,让企业付出的代价也越来越高。
错误连线致交换机超载
印第安纳医科大学安全分析师杰拉米·杰伊·鲍尔斯(JeramyJayBowers)表示,四年前由于一名IT员工误将两条网络线缆连接到一台下行集线器上,该大学数据中心交换机出现了超载现象。
这次事故发生时,鲍尔斯是该学校的系统工程师,该学校的IT部门有两处办公场所,一处在学校办公楼,另一处则在相邻的学校附属医院大楼上,鲍尔斯认为这本身就不是一种合理的网络设计方案。
两处办公场所通过一条光缆连接,在医院大楼的IT办公室中,该光缆被连接在一台12口交换机上。鲍尔斯表示,IT人员可以轻松的把该设备从校园网断开,然后通过墙上的插座将其连接到医院网络中。
有一天鲍尔斯在家休息时接到电话,得知学校服务器机房的交换机超载,导致它托管的所有服务都无法备访问。鲍尔斯表示,当数据包通过时,正常情况下交换机绿色指示灯会不断闪烁,但此时它们却基本是长亮状态。
鲍尔斯立即通过电话开始排障。他可以确定校园网络没有进行过任何修改。然后他想到了上面提到的光缆。他让同事拔下这条光缆,结果超载交换机恢复正常;再插上该光缆后,该交换机又超载。这说明问题出在该光缆的另一端,也就是附属医院大楼那边。
最后被查明的故障原因是,一名IT人员由于项目需要刚刚搬到医院IT办公室,由于需要连接更多设备到网络中,他无意中将两条来自校园网交换机的网线插到同一台新增的集线器上,这样就在网络中形成了一个环,数据在该环中不断被重复发送,最后导致校园网交换机的超载。
虽然这次事故并没有让学校IT部门改变现有不合理的网络设计,但至少现在IT部门知道一件事情:私自乱接网线的行为是不对的。通过这次事件鲍尔斯确信,相比技术错误,人为错误所带来的故障数量要更多一些。
