首页 > 云计算 > IDC情报 > 综合情报

阿里云的“寒冬”:一年两次重大故障,如何避免?

来源:21世纪经济报道    2023-11-15 09:00:24  赞(19)  评论(0)

21世纪经济报道记者崔灰灰 北京报道

立冬之际,阿里云遭遇了一场突如其来的严寒。

11月12日下午,阿里云发生重大故障,波及面非常广泛,不仅是阿里系产品,很多外部客户的业务也受到影响。这对把稳定性作为生命线的云服务公司来说,无疑是一场噩梦。

去年,同样是在冬季,阿里云的香港机房节点发生故障,导致我国香港和澳门诸多关键基础设施运营者的网站、互联网应用均无法打开。

一年之内,两次重大事故,阿里云迎来创立以来的至暗时刻。更尴尬的是,过去一年,阿里云的组织架构也不太稳定。一年两换CEO,目前董事长兼CEO一职由阿里巴巴集团CEO吴泳铭兼任。

行稳致远,作为中国云计算的先行者,阿里云现在需要稳定,这既包括组织上的稳定,也包括业务上的稳定。

三个半小时的故障

最先感知到阿里云故障的,是各个产品的用户。发现产品无法打开后,用户纷纷跑到社交平台上吐槽,很快,人们发现,出现问题的产品不止一个。

一时间,淘宝、闲鱼、阿里云盘、钉钉……阿里几乎全线产品都出现了故障。与此同时,很多使用阿里云服务的企业产品也出现问题,据21世纪经济报道记者不完全统计,整数云、理工小蜜蜂、饿乐送、cool easy、IOTTEC、纳思云、语雀等平台均受到影响。

当时阿里云健康面板显示,全部的92个产品均出现异常,并且受影响地域涉及全球所有节点。根据阿里云随后发布的公告,阿里云方面对整个故障的处理时间线如下:

17:44,阿里云监控发现云产品控制台访问及API调用出现异常;

17:50,阿里云已确认故障原因与某个底层服务组件有关;

18:54,杭州、北京等地域控制台已恢复;

19:20,绝大部分地域控制台服务已恢复;

19:43,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复;

20:12,北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中;

21:11,受影响云产品均已恢复。

据阿里云披露,整个故障使云产品控制台、管控API等功能受到影响,OSS、OTS、SLS、MNS等产品的服务受到影响,大部分产品如ECS、RDS、网络等的实际运行不受影响。

根源或是“鉴权服务”

截至发稿,阿里云尚未发布关于此次故障的详细说明。不过针对此次故障,21世纪经济报道记者采访了多位业内人士,他们依据已披露的官方信息对该故障进行了分析。

首先要明确一个概念,“云产品控制台”其实是云厂商的一个网站,在这上面可以控制服务器的状态,比如开机、关机、重启等。API调用则是指有些客户不直接使用云厂商的控制台,而是自己有一个运维平台,然后通过API把云厂商的控制台信息调用到自己的运维平台上。

所以,阿里云此次故障的导火索就是无法正常访问云产品控制台,至于阿里云后面确认的故障原因,是与某个底层服务组件有关,行业技术专家李明(化名)分析猜测,这个服务组件可能是阿里云的鉴权服务,而出现异常的是AK、SK。

在云计算领域,"鉴权服务" 指的是身份验证(Authentication)和授权(Authorization)服务。而AK(Access Key)是用于标识访问者身份的一串字符串,类似于用户名,SK(Secret Key) 则是与Access Key 相关联的用于签名验证的私密字符串,类似于密码。

正常来说,当用户发起对云服务的请求时,需要使用AK表示身份,使用SK进行签名验证以确保请求的合法性,而鉴权服务的业务逻辑就涉及验证用户的身份。所以当鉴权服务出现问题,可能带来未经授权的访问,或者是拒绝合法请求。

李明认为,阿里云这次故障影响的范围如此大,就是因为AK、SK属于最底层的服务,一旦出现问题,所有产品都无法正常访问。

对于阿里云为何在此时出现故障,业内有分析猜测,可能是双十一刚结束,阿里云收缩容量导致。

但这也是让李明十分疑惑的一个地方。“通常云厂商面对重要节点,都会进行封网保障,即在节点前后的一段时间不对系统进行任何变更。从技术层面来说,只要不对业务进行变更,故障概率就会比较小。”

如果没有操作,那可能是由单点故障引发。但以阿里云的经验,这个可能性也很小,因为系统都有冗余设计,一般来说是能够规避某台服务器的故障导致所有服务器都出问题。“但这也不是绝对没有可能,如果真是因为单点故障,那就需要对阿里云的架构是否完善存疑了。”李明称。

在李明看来,这次故障大概率还是由业务变更导致。“但阿里云为何会在这个节点做业务变更,又很难理解,可能是业务的线网发生其他故障,必须要去操作进行修复,另外也不排除有人恶意操作。具体原因还是要等阿里云做官方披露。”李明表示。

如何避免故障发生?

当阿里云故障发生后,也再次引发了人们对云计算稳定性的关注。

过去十年,“上云”成为产业数字化的一个重要趋势,越来越多的业务已经跑在云上。在此背景下,人们的担心也在情理之中,尤其是当很多对人们生活会产生较大影响的产品都跑在云上,一旦发生类似此次的故障,势必会对用户生活造成影响。

所以,如何避免类似故障的发生,也是整个行业都需要思考的问题。云服务行业的资深人士张坦(化名)坦言,对任何技术来说,100%避免故障都不可能实现,但要做的,是尽可能降低故障发生的概率,或者最小化故障发生后的影响。

基于阿里云这次故障,张坦提出,多云部署或是一个比较合适的解决方案。“如果是单云部署,即便在云内做各种各样的高可用,比如多倍冗余,跨可用区部署,但如果发生底层组件的故障,那也会像阿里云这样出现多可用区的多产品故障。”

如果是多云部署,比如把业务部署在两个不同云厂商,那这两个云之间的组件不会相互依赖,这就可以避免其中一个云出现问题时,整个产品都不可访问的现象。

这种多云部署,会带来一定的成本提升,比如资源成本的增加,以及技术复杂度提升带来的成本增加。但是张坦指出,多云部署在云服务市场并不鲜见,从实际案例来看,多云部署成本提升不算太高,这也和每个企业选择的技术方案有关,比如如果只选择把关键模块做多云部署,那这个成本则更小。而且相比稳定性提升的收益,这部分成本大部分企业也都愿意接受。

从企业的角度,做多云部署或许会是一种趋势。但对云厂商来说,让其把自身业务部署一部分到其他云厂商,或许现阶段还很难实现。不过,这次阿里云的故障也再次为行业敲响警钟,虽然故障的真正原因还有待官方披露,但每个云厂商也都需要未雨绸缪,如何避免这样的“灾难”在自己身上发生。

百度搜索《阿里云的“寒冬”:一年两次重大故障,如何避免?》。如本文侵权,请把本文相对应的原创链接及文章作者证明发至邮箱admin@lanisky.cn,核实后本站即删除。



网友评论 更多评论(0)


发表评论 默认免登陆匿名发表
   

广州 / 深圳 / 佛山 / 东莞 / 湛江 / 茂名

Lanisky公司成立于2015年,是互联网+产业创新服务商,以云计算、网站建设开发和网站运营为主要业务,为广大客户提供专业性强、整合度高的互联网信息化解决方案...[详情]
  

深圳市行云互动科技有限公司
深圳市湛蓝信息产业有限公司
深圳市福田区文化体育产业总部大厦 / 13922266979

广州蓝迪迅通信科技有限公司
广州市增城区新塘镇南安西石窿C幢 / 13423640808

廉江市湛蓝科技有限公司
湛江市廉江市良垌镇平田济电商中心 / 15360737081

联系我们


微信公众号

微信视频号

微信洽谈
百家号 / 今日头条 / 微博 / 领英 / RSS订阅
service@lanisky.cn / 详细联系方式

首页 | Lanisky公司 | 关于我们 | 公司资讯 | 资料中心 | 人力资源 | 联系我们 | 网站条款 | 友情链接

©2015- Lanisky All rights reserved.