1000+公司业务瘫痪，损失过亿，故障真正原因竟是这样！

发布时间 :2019-11-29 17:36:31 阅读 :1385

上周，技术圈又出现了一次轰动性的大事故——阿里云重大技术故障，超过1000家企业系统瘫痪，损失过亿！故障于北京时间2018年6月27日16：21左右爆发，16：50分开始陆续恢复。官方给出的时间大概持续30分钟，完全恢复实际用了一个多小时。上一次同等规模的故障是在2015年，携程瘫痪了11小时，损失高达7000W+。

阿里云是国内最大的云服务商，服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业，包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户，以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中，阿里云均保持着良好的运行纪录。一般大型互联网公司尤其是阿里云这样支撑千亿级业务规模的公司，对工程师权限有着极为严格的控制，不可能在实习生不熟悉的情况下，给予过高的管理权限，这是极其不专业的做法。这个说法跟阿里云官方通告是比较吻合的。

次日凌晨时分，阿里云发布的说明称：“工程师团队在上线一次自动化运维新功能的时候，执行了一项变更验证操作，这一项功能在测试环境验证中未出现问题，上线生产环境中，触发了一个未知的bug。”

不论何种原因引起，重要的是，本次故障的严重程度是非常高的，故障级别定义在S1，整个阿里集团的核心业务，以及依托阿里云的公司，很多都受了影响。

互联网时代，虽然不是每个公司都像阿里一样拥有一个庞大复杂的架构体系，会涉及到成千上万的配置以及几十种技术的应用，但是，事故的发生对每个公司来说概率都是一样的。

阿里云对于本次故障非常坦诚：

"这次故障，没有借口，我们不能也不该出现这样的失误！我们将认真复盘改进自动化运维技术和发布验证流程，敬畏每一行代码，敬畏每一份托付。"

这样的态度中小企业同样值得学习，IT运维无小事，容不得半点马虎。也许一个小BUG，一个小病毒，甚至是工作人员一次不经意的误操作，就会造成小到几台电脑无法工作，大到整个公司网络瘫痪的影响，甚至给公司业务带来无法挽回的损失。如果能做到日常有专业人员例行维护，例行排查安全隐患，做好病毒查杀、软件更新等等预防工作，那么会将事故发生率降低到最小。

IT运维的最佳境界就是保障一切系统正常运行，从不宕机，为企业正常运转保驾护航，而不仅仅是出了问题才来“修修补补”。如果你的企业已经有了可爱的运维工程师，请珍惜他。如果不知道去哪里找专业的运维小哥哥，那么IT无忧“共享IT部”就是你的最佳选择——

上百位优秀的IT运维工程师，就在你身边!花不到一个人工的钱请来一个专业团队，1分钟响应，5分钟上门，出现故障第一时间修复，定期上门巡检，提前消除故障隐患，妥妥的企业安全卫士。

# 上一篇: 打造IT服务新型平台，整合碎片化... # 下一篇: 改善中小型企业数据管理的4个技巧...

联系我们

业务热线

400-688-8685

传真：0755-23960028

地址：深圳市福田区沙头街道天安社区泰然四路天安数码时代大厦B座702B

关于我们
公司简介

联系我们
联系我们
留言表单

龙岗区it外包

1000+公司业务瘫痪，损失过亿，故障真正原因竟是这样！

咨询在线客服

400-688-8685