1000+公司业务瘫痪,损失过亿,故障真正原因竟是这样!
上周,技术圈又出现了一次轰动性的大事故——阿里云重大技术故障,超过1000家企业系统瘫痪,损失过亿!故障于北京时间2018年6月27日16:21左右爆发,16:50分开始陆续恢复。官方给出的时间大概持续30分钟,完全恢复实际用了一个多小时。上一次同等规模的故障是在2015年,携程瘫痪了11小时,损失高达7000W+。
阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云均保持着良好的运行纪录。一般大型互联网公司尤其是阿里云这样支撑千亿级业务规模的公司,对工程师权限有着极为严格的控制,不可能在实习生不熟悉的情况下,给予过高的管理权限,这是极其不专业的做法。这个说法跟阿里云官方通告是比较吻合的。
次日凌晨时分,阿里云发布的说明称:“工程师团队在上线一次自动化运维新功能的时候,执行了一项变更验证操作,这一项功能在测试环境验证中未出现问题,上线生产环境中,触发了一个未知的bug。”
不论何种原因引起,重要的是,本次故障的严重程度是非常高的,故障级别定义在S1,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。
互联网时代,虽然不是每个公司都像阿里一样拥有一个庞大复杂的架构体系,会涉及到成千上万的配置以及几十种技术的应用,但是,事故的发生对每个公司来说概率都是一样的。
阿里云对于本次故障非常坦诚:
"这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。"
这样的态度中小企业同样值得学习,IT运维无小事,容不得半点马虎。也许一个小BUG,一个小病毒,甚至是工作人员一次不经意的误操作,就会造成小到几台电脑无法工作,大到整个公司网络瘫痪的影响,甚至给公司业务带来无法挽回的损失。如果能做到日常有专业人员例行维护,例行排查安全隐患,做好病毒查杀、软件更新等等预防工作,那么会将事故发生率降低到最小。
IT运维的最佳境界就是保障一切系统正常运行,从不宕机,为企业正常运转保驾护航,而不仅仅是出了问题才来“修修补补”。如果你的企业已经有了可爱的运维工程师,请珍惜他。如果不知道去哪里找专业的运维小哥哥,那么IT无忧“共享IT部”就是你的最佳选择——
上百位优秀的IT运维工程师,就在你身边!花不到一个人工的钱请来一个专业团队,1分钟响应,5分钟上门,出现故障第一时间修复,定期上门巡检,提前消除故障隐患,妥妥的企业安全卫士。