Fastly系统一只虫子压垮全球网络带来的启示(组图)



图像来源,GETTY IMAGES

美国互联网云端服务供应商Fastly发生故障,引发全球多家官民网站瘫痪近1个小时,让这个对普罗网民而言相当陌生的网络企业品牌突然走进公众视线。

Fastly为世界各地网站提供内容分发网络(content delivery network, CDN)服务,以加快用户浏览速度和体验。事故发生期间,世界广泛地区网民无法登入BBC、《纽约时报 》、《卫报》等多家国际媒体网站,亚马逊(Amazon)等网络商家,以至于英国政府网站。

Fastly在美国太平洋时间(西岸时间)星期二(6月8日)晚间公布事故调查结果,称肇事原因是5月份一次系统更新中有程序错误(bug)未被发现,并非遭受黑客攻击。该公司为是次瘫痪致歉。

Fastly是全球为数不多的大型CDN供应商之一。信息科技与网络安全专家纷纷指出,这次事件凸显世界互联网基础建设脆弱的一面。

这场网络瘫痪是怎么发生的?

事件在格林尼治标准时间星期二10:00发生,网民尝试登入多个网站时出现错误信息“Error 503 Service Unavailable”(错误503:服务不可用)。

图像来源,GETTY IMAGES

受影响网站众多,包括:

政府

英国政府

媒体

英国广播公司(BBC)英国《金融时报》英国《卫报》美国《纽约时报》美国有线电视新闻网(CNN)卡塔尔半岛媒体网络(Al Jazeera Media Network)

网络金融

PayPal

影音串流平台

HBO MaxVimeoTwitchHulu

网络论坛、社交平台

RedditTwitter

网店

美国亚马逊(Amazon)加拿大Shopify

总部设在旧金山的Fastly在格林尼治标准时间09:58宣布正调查一起事故,至10:44宣布已找出事故原因,并正安装补丁包。

格林尼治标准时间10:57,Fastly宣布完成修正,但客户可能要应付服务恢复之后涌入的浏览量。

Fastly最初透过Twitter称,该公司发现一笔系统设定引发旗下全球PoP(points of presence,网络接入点)发生故障,并已停用该笔设定。PoP让网络内容能从靠近用户的服务器(servers)送到用户面前。

旧金山时间星期二晚间,Fastly工程与基建高级副董事长尼克·洛克威尔(Nick Rockwell)发表博客解释说,整起事件源于5月12日一次软体更新,当中一笔程序错误会在用户合法更改某设定时发作。

星期二的事故导致该公司85%网络连线报告错误。洛克威尔称,在49分钟内,抢修团队恢复了95%网络运转。

“这是一起广泛而严重的网络中断,就此影响到我们客户与所有依赖这些客户的人,我们深表抱歉。”

网帖标签“#InternetOutage”(网络中断)迅速在仍能运作的社交媒体平台上成为热门话题。搜影响网站数目不断增加,让一些网民惊讶不已。

媒体网站可谓这次断网事件的重灾区,大家想方设法维持新闻发表。其中,美国科技新闻网站The Verge利用谷歌文件(Google Docs)发稿,却忘记设定编辑限制,结果演变成连串“乱入”编辑,并在Twitter上引来围观。

美国《連線》杂志(WIRED)执行编辑布莱恩·巴雷特(Brian Barrett)接受BBC电视世界新闻台(BBC World News)连线采访时则赞扬Fastly能在短短一小时内修复如此重大的瘫痪事故。一些网民似乎同意这说法。

Fastly是什么?CDN又是什么?

Fastly成立于2011年,为世界各大网站提供CDN服务,以加快网民浏览速度和体验。业内有规模的竞争对手不多,计有阿卡迈科技(Akamai Technologies)、Cloudera和亚马逊网络服务(Amazon Web Services, AWS)。

大数据分析公司Kentik的互联网分析总监道格·马多理(Doug Madory)向BBC指出,CDN服务是互联网生态系统的重要组成部分,普罗网民其实每天都在跟Fastly打交道。“通常你不会知道它任何事情,因为它在正常运行。”

CDN透过把网站内容复制到遍布全球的服务器网络,让各大网站能更流畅地下载到用户面前。在网站充满高像度照片、视频等内容的今天尤其重要。

英国网络安全企业Cygenta联席总裁杰西卡·巴克博士(Dr Jessica Barker)在BBC第五广播电台(BBC Radio 5Live)节目上形容,CDN的工作是减少网络摩擦。

巴克博士这样形容CDN:“在现实世界中,它就像一家图书馆。我可以到社区里的图书馆借某本书,而不用费很大的劲跑到出版社去找。可要是图书馆关门了,我就借不到那本书了。”

CDN可帮助网站应付浏览量突然涌入,同时也就能协助网站抵御透过制造庞大浏览量来试图瘫痪网站的拒绝服务攻击(DoS attack)。Fastly采用了一项名为“边缘云端”(edge cloud)的技术来做到这一点,大意是把原本集中在网络中心进行的数据运算分工到地方服务器同时运算,减轻整体网络负载。

这次事故造成多少损失?

我们目前仍不知道这次瘫痪对全球造成多大的财政损失,但有人估算,网站瘫痪一个小时,可让一家公司赔掉25万美元;路透社引述跨国媒体公关顾问凯度(Kantar)称,据粗略推算,每瘫痪一个小时,全球盈利网站就会损失合共2900万美元的广告收益。

诺丁汉特伦特大学旗下诺丁汉法学院(Nottingham Law School, Nottingham Trent University)的丽贝卡·帕里教授(Prof Rebecca Parry)对BBC说:“服务丢失的赔偿责任也许会由付费云端服务合同承担,但通常这种合同不会涵盖一切损失。”

Fastly股份2019年在纽约上市,2020年10月曾创每股136.5美元高位,此后持续回落。星期二的断网事件发生之后,一些网民扬言要抛售手中的Fastly证券。

Fastly股份星期二盘前交易时段曾跌价4%,但开盘后不跌反升,结果收盘比上日涨7.7%,报50.7美元,相当于市值58.7亿美元。

英国牛津大学赛德商学院(Saïd Business School, University of Oxford)财务学副教授马丁·施马尔茨博士(Dr Martin Schmalz)形容,网民惊讶地发现如此庞大的网络权力落在Fastly这一家企业手中,投资者则惊喜地发现Fastly手握如此庞大的网络权力。

Fastly当机事件能避免吗?

美国戴尔科技(Dell Technologies)高级董事斯蒂芬·吉尔德代尔(Stephen Gilderdale)对BBC说,Fastly这次事故偶有发生,但只要云端服务商有配置足够缓冲,服务通常会很快正常。

吉尔德代尔说:“大多数案例中,服务只会受短暂影响,数据也很容易恢复,远不值得时刻忧虑。这能展示网络的可靠程度,有问题能在瞬间恢复。”

《連線》杂志执行编辑布莱恩·巴雷特对BBC指出,别的CDN提供商发生也曾遭遇同类事故。此次事件反映当前全球互联网缺乏足够缓冲安全区。

英国牛津大学互联网研究所(Oxford Internet Institute)研究员科琳·凯斯—斯佩思(Corinne Cath-Speth)在Twitter上指出,几乎全球所有网站都采用CDN与其他云端服务,这次Fastly服务发生问题,敲响了互联网云端服务过度中央化的警钟。

路透社引述网络安全企业Idax Software创办人,英国约克大学客席教授马克·罗德伯特(Prof Mark Rodbert)说:“短短10分钟内,一个故障就能让全世界一片混乱,实在不简单。这令我们意识到网络技术到云端改变了企业需要保护的部分和环节。”

罗德伯特教授说,企业必须做好隔火墙建设,确保整个互联网不会因为一家公司甚至是一位雇员出现问题,而彻底瘫痪。

推荐阅读