技術(shù)
導(dǎo)讀:2018 年,公有云服務(wù)模式更加成熟,云計(jì)算市場(chǎng)規(guī)模也在不斷擴(kuò)大,但公有云服務(wù)的故障仍然頻繁發(fā)生,幾大主流公有云無一幸免。
圖片來自“123rf.com.cn”
根據(jù) IDC 今年 7 月份發(fā)布的《中國公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告》顯示,阿里云的市場(chǎng)占有率已過 45%,騰訊云達(dá)到 10%。在全球市場(chǎng),根據(jù) Gartner 最新數(shù)據(jù)顯示,亞馬遜 AWS 占全球份額的 51.8%;微軟 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服務(wù)占比 3.3%;隨后是 IBM,占比 1.9%。可見,這幾大主流云供應(yīng)商占據(jù)全球絕大部分市場(chǎng),一旦云服務(wù)出現(xiàn)宕機(jī),受影響的企業(yè)將不計(jì)其數(shù)。
2018 年,云計(jì)算市場(chǎng)不僅發(fā)展迅速,而且問題不斷。云供應(yīng)商與開源社區(qū)的矛盾不斷升級(jí),主流云廠商均未逃過宕機(jī)事件,更有甚者一年出現(xiàn)多次服務(wù)宕機(jī),導(dǎo)致企業(yè)對(duì)公有云的信心持續(xù)走低。本文總結(jié)了 2018 年前十大云宕機(jī)事故,歡迎各位補(bǔ)充經(jīng)歷過的云服務(wù)至暗時(shí)刻。
本文首發(fā)于公眾號(hào)InfoQ,經(jīng)億歐編輯整理,供行業(yè)人士參考。
事故詳情:2018 年 1 月 18 日,谷歌云自動(dòng)化機(jī)制失效,導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler(自動(dòng)擴(kuò)展器)服務(wù)無法正常運(yùn)行,該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無法與其他可用區(qū)虛擬機(jī)聯(lián)系。
補(bǔ)救措施:工程團(tuán)隊(duì)手動(dòng)切換到替換任務(wù),以恢復(fù)數(shù)據(jù)持久層正常運(yùn)行。
宕機(jī)時(shí)間:93 分鐘
事件后續(xù):谷歌承諾,未來如果配置數(shù)據(jù)過時(shí),谷歌將停止虛擬機(jī)遷移,數(shù)據(jù)持久層會(huì)在長時(shí)間運(yùn)行進(jìn)程期間重新解析對(duì)等體(peer),以便故障發(fā)生時(shí)迅速切換到替換任務(wù)。
事故詳情:2018 年 3 月 2 日凌晨,依賴 AWS 服務(wù)的部分 Alexa 開始出現(xiàn)失聲問題,該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷,Alexa 也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時(shí)內(nèi),Alexa 又接到了成千上萬封投訴。據(jù)了解,Alexa 這一故障源于亞馬遜 AWS 的網(wǎng)絡(luò)服務(wù)出現(xiàn)問題,其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響,包括軟件開發(fā)公司 Atlassian,云通訊公司 Twilio 等。
補(bǔ)救措施:亞馬遜 AWS 的在線支持團(tuán)隊(duì)對(duì)此進(jìn)行了修復(fù)。
宕機(jī)時(shí)間:數(shù)小時(shí)(因事發(fā)凌晨,未在第一時(shí)間發(fā)酵)
事件后續(xù):亞馬遜 AWS 未對(duì)此故障進(jìn)行詳細(xì)說明,只透露與網(wǎng)絡(luò)連接有關(guān)。
事故詳情:2018 年 5 月 31 日,因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障,AWS 再次出現(xiàn)連接問題。在此事故中,AWS 的核心 EC2 服務(wù),Workspaces 虛擬桌面服務(wù)以及 Redshift 數(shù)據(jù)倉庫服務(wù)均受到影響。
補(bǔ)救措施:人為修復(fù)
宕機(jī)時(shí)長:30 分鐘左右
事件后續(xù):亞馬遜公司 S3 的副總裁兼總經(jīng)理 Mai-Lan Tomsen Bukovec 近日接受采訪表示,亞馬遜從未見過數(shù)據(jù)中心崩潰。這意味著,過去的每一次事故都未曾導(dǎo)致整個(gè)數(shù)據(jù)中心的崩潰,AWS 也在系統(tǒng)設(shè)計(jì)層面進(jìn)行了改進(jìn)以防止此類事故發(fā)生。
事故詳情:2018 年 6 月 17 日至 18 日,因愛爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問題,微軟 Azure 被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷。
宕機(jī)時(shí)間:5 小時(shí)以上
事故詳情:2018 年 6 月 27 日 16:21 左右,阿里云出現(xiàn)重大技術(shù)故障,16:50 分開始陸續(xù)恢復(fù),官方給出的故障時(shí)間為 30 分鐘左右,恢復(fù)時(shí)間大概花費(fèi)一小時(shí)。經(jīng)過技術(shù)復(fù)盤,阿里給出的故障原因?yàn)楣こ處焾F(tuán)隊(duì)上線自動(dòng)化運(yùn)維新功能時(shí),執(zhí)行了一項(xiàng)變更驗(yàn)證操作,該操作在測(cè)試環(huán)境中未發(fā)生問題,上線后觸發(fā)未知 bug。
補(bǔ)救措施:人工介入,定位并解決問題。
宕機(jī)時(shí)間:30 分鐘,恢復(fù)時(shí)間花費(fèi)一小時(shí)左右。
事件后續(xù):本次事故被定義為 S1 級(jí)別,即核心業(yè)務(wù)重要功能不可用,影響部分用戶,造成一定損失。阿里云發(fā)布官方聲明,表示“對(duì)于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,敬畏每一行代碼,敬畏每一份托付。”
事故詳情:2018 年 8 月 5 日,北京清博數(shù)控科技有限公司(以下簡稱“前沿?cái)?shù)控”)在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來的災(zāi)難》的博文,文中表明,2018 年 7 月 20 日,騰訊云云硬盤發(fā)生故障(騰訊云后期給出的事故原因說明),導(dǎo)致該公司存放的數(shù)據(jù)全部丟失,并且不能恢復(fù),這是該創(chuàng)業(yè)公司近千萬元級(jí)的平臺(tái)數(shù)據(jù),包括經(jīng)過長期推廣導(dǎo)流積累起來的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。
補(bǔ)救措施:騰訊云表示,監(jiān)控到異常后第一時(shí)間向用戶告知了故障狀態(tài),并立即組織文件系統(tǒng)專家并聯(lián)合廠商技術(shù)專家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過多方努力,最終仍有部分?jǐn)?shù)據(jù)完整性校驗(yàn)失敗。
事件后續(xù):騰訊云提出“賠償 + 補(bǔ)償”方案,并承諾會(huì)繼續(xù)與“前沿?cái)?shù)控”保持溝通,幫助其進(jìn)行業(yè)務(wù)恢復(fù)。
事故詳情:2018 年 7 月 24 日,用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況,即便更換運(yùn)營商,結(jié)果也一樣。隨后,騰訊云發(fā)布通知稱初步確定是運(yùn)營商光纜中斷,運(yùn)營商已經(jīng)找到斷點(diǎn),正在連線中,主要受影響的為廣州區(qū)域部分用戶。
補(bǔ)救措施:運(yùn)營商第一時(shí)間介入搶修。
宕機(jī)時(shí)間:宕機(jī)時(shí)間不明,恢復(fù)時(shí)間花費(fèi) 30 至 40 分鐘
事故詳情:Prime Day 是亞馬遜在全球范圍內(nèi)啟動(dòng)的為期 36 小時(shí)的會(huì)員促銷活動(dòng),活動(dòng)剛開始,亞馬遜網(wǎng)站及 App 就同時(shí)發(fā)生嚴(yán)重宕機(jī),不光電子商務(wù)業(yè)務(wù)受損,亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對(duì)此給出的解釋是 AWS 管理控制臺(tái)出現(xiàn)全球性問題。
宕機(jī)時(shí)間:故障持續(xù)了將近 6 小時(shí)。
事件后續(xù):AWS 發(fā)言人表示,間歇性的 AWS 管理控制臺(tái)問題并未對(duì)亞馬遜的消費(fèi)者業(yè)務(wù)產(chǎn)生任何有意義的影響。
事故詳情:9 月 4 日上午,微軟 Azure 美國中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓,導(dǎo)致多個(gè) Azure 服務(wù)出現(xiàn)連接問題,客戶難以訪問存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。
補(bǔ)救措施:9 月 5 日上午,微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備,其他服務(wù)也在陸續(xù)恢復(fù)中。
宕機(jī)時(shí)間:超過 24 小時(shí)
事故詳情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常,維運(yùn)人員無法透過 Cloud Console UI 建立新節(jié)點(diǎn)。
補(bǔ)救措施:谷歌派工程團(tuán)隊(duì)調(diào)查故障原因,并開始著手維修。谷歌表示,受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command,建置新 Kubernetes 節(jié)點(diǎn)。
宕機(jī)時(shí)間:接近 19 小時(shí)
對(duì)于很多中小企業(yè)來說,自建機(jī)房的人力和維護(hù)成本太高,他們希望利用云計(jì)算的低成本、可擴(kuò)展性、可靠性和便利性等好處,但卻擔(dān)心面臨風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)通常是相同的,例如安全漏洞、監(jiān)管問題,以及缺乏有關(guān)如何構(gòu)建最佳云計(jì)算基礎(chǔ)設(shè)施的知識(shí)。而在過去幾年,云供應(yīng)商還發(fā)生過數(shù)起大大小小的故障,也說明企業(yè)的擔(dān)心不是多余的。隨著越來越多的企業(yè)和政府機(jī)構(gòu)將數(shù)據(jù)上云,即便只是一個(gè)小小的宕機(jī)都可能引發(fā)很大的災(zāi)難。即便是提供 99.9% 可靠性的阿里云,那 0.1% 的宕機(jī)還是發(fā)生了。
考慮到企業(yè)的這些需求,現(xiàn)在混合云的趨勢(shì)也比較明顯,很多公有云廠商都在布局混合云市場(chǎng)。借助混合云,企業(yè)在提高生產(chǎn)力的同時(shí)還能降低成本,也不用完全投入到公有云當(dāng)中。但是混合云也還存在兼容性和安全合規(guī)性方面的挑戰(zhàn),所以為了盡可能地減少故障帶來的損失,企業(yè)不僅要建立完善的災(zāi)備保障體系,還應(yīng)該對(duì)災(zāi)備系統(tǒng)進(jìn)行定期演練。
2018 年你經(jīng)歷過這些公有云故障嗎?你怎么看這個(gè)問題呢?
歡迎留言說出你的想法。