3月3日凌晨,阿里云出现宕机故障。
受宕机故障影响,华北不少互联网公司APP、网站纷纷瘫痪,一大波程序员、运营和运维不得不从被窝里爬起来干活。
更重要的是,这已经不是阿里云第一次出现故障。
网友“上海蓝盟网络夏立成”调侃,“阿里云一年一宕机,今年特别早”。
而在宕机惊魂之后,人们需要思考宕机故障何以屡屡发生,事后该如何赔偿?
惊魂三小时
针对阿里云此次宕机,58高级架构师沈剑称,事故持续了3个小时左右,事后观察了2个小时。
宕机最直接的影响是,购买阿里云服务的企业网站或APP无法正常使用。
如果说“无法使用”还是一个抽象名词,那么受影响的企业能够提供比较具象的理解。
孔夫子旧书网3日发布声明称,由于阿里云大规模故障,导致孔网暂时无法使用。言外之意,在宕机的这段时间内,用户将无法在孔网购买商品。
再比如同日发布声明的即嗨比分(一家足球赛事直播应用平台)称,阿里云宕机导致即嗨部分模块出现卡顿现象,即用户体验出现下降。
依次类推,阿里云出现故障面积越大,受影响的企业和用户也就越多。
在宕机故障发生大约1小时后,阿里云官方回应称,华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后逐步恢复。
中新社国是直通车查询阿里云官网显示,阿里云服务从地域上可以分为亚太、欧洲与美洲、中东与印度三大块,而具体到亚太又包括华北、华东、华南、香港等13个分区。
阿里云官网截图
“华北2地域可用区C部分”,即华北地域中的一处。
通常,为了降低网络时延、提高客户访问速度,企业会选择购买靠近客户的地域。
因此,此次宕机故障发生后,“华北可谓是乱成一锅粥”。
而随着越来越多企业及应用将数据搬上云端,服务器上的每一个小小的宕机,都可能引发一场大灾难。
阿里云历次宕机
作为国内最大的云服务商,这并不是阿里云第一次宕机。
2018年6月,阿里云出现大规模访问异常,图片服务等产品无法正常使用,官网账号也无法登陆。官方公布,该故障是因为运维上的一个操作失误。事后,阿里云表示,将敬畏每一行代码,敬畏每一份托付。
2016年10月,阿里云华东1地域可用区B部分也曾发生过ECS服务器IO HANG的事故。
再往前,2015年9月,阿里云云盾的安骑士产品升级触发bug导致了用户ECS里的部分正常文件被误隔离。原因是,程序员写错了一行代码。也是在当年,阿里云启动了“百倍时间赔偿计划”。
另有媒体统计,2012年、2013年、2014年阿里云都曾出现不同程度的故障。
据市场研究机构IDC日前报告,阿里云市场份额位居中国第一,占比达到43%,相当于第二至第九名的总和。排名其后的分别是,腾讯云、中国电信、AWS、金山云、Ucloud、微软、百度云和华为云。
如此大体量,阿里云每次的宕机都会给客户带来不小影响。
与其给客户带来的负面影响相反,阿里云凭借中国大市场已经跻身全球云服务领先地位。
阿里巴巴1月30日公布财报显示,阿里云营收规模为213.6亿元,4年间增长约20倍,成为亚洲最大的云服务公司。上一年,这一数字为111.7亿元。
宕机如何赔偿?
在此次宕机事件发生后,阿里云表示,将根据SLA协议,尽快处理赔偿事宜。
“SLA协议”即,服务等级协议(Service Level Agreement,简称“SLA”)。根据阿里云官网资料显示,对于单ECS实例,如服务可用性低于99.95%,用户可获得月度服务费10%、25%、100%不等的赔偿。
阿里云官网截图
此外,华为云、腾讯云的赔偿标准均与此相似。
一位云计算企业工程师告诉中新社国是直通车,云服务发生故障的赔偿基本以“送时间”为主。比如此前,阿里云就执行过“百倍时间赔偿”。
阿里云官网截图
“但这点赔偿有时候与企业的损失差距巨大。”前述工程师举例,如果京东淘宝5分钟不能登陆,这得损失多少钱。
针对此次宕机,也有网友提出,除了赔使用时长和代金券,还应该赔偿“加班费”,不少运维和程序员从被窝里爬起来加班。
而对企业而言,他们最关心是如何避免发生故障。
有分析人士认为,尽管云服务商承诺99.99%的安全可靠性,但谁都有可能是那倒霉的0.01%。因此,避免故障通常有两种做法,一种是数据备份,并定期更新;一种是不把鸡蛋放在同一个篮子里,使用一个以上的云服务提供商。
但这无疑都会增加企业的成本。云服务商如何更可靠,仍是一个待解之题。