成人午夜福利片免费观看,把腿扒开让我添30分钟视频

云服務(wù)經(jīng)歷的至暗時(shí)刻，2018十大云宕機(jī)事故盤點(diǎn)

2019-01-02 09:24 億歐

導(dǎo)讀：2018 年，公有云服務(wù)模式更加成熟，云計(jì)算市場(chǎng)規(guī)模也在不斷擴(kuò)大，但公有云服務(wù)的故障仍然頻繁發(fā)生，幾大主流公有云無一幸免。

云計(jì)算,企業(yè)云,大數(shù)據(jù),云計(jì)算

圖片來自“123rf.com.cn”

根據(jù) IDC 今年 7 月份發(fā)布的《中國公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告》顯示，阿里云的市場(chǎng)占有率已過 45%，騰訊云達(dá)到 10%。在全球市場(chǎng)，根據(jù) Gartner 最新數(shù)據(jù)顯示，亞馬遜 AWS 占全球份額的 51.8%；微軟 Azure 位列第二位，占比 13.3%；阿里云位列第三位，占比 4.6%；谷歌 Cloud 云服務(wù)占比 3.3%；隨后是 IBM，占比 1.9%。可見，這幾大主流云供應(yīng)商占據(jù)全球絕大部分市場(chǎng)，一旦云服務(wù)出現(xiàn)宕機(jī)，受影響的企業(yè)將不計(jì)其數(shù)。

2018 年，云計(jì)算市場(chǎng)不僅發(fā)展迅速，而且問題不斷。云供應(yīng)商與開源社區(qū)的矛盾不斷升級(jí)，主流云廠商均未逃過宕機(jī)事件，更有甚者一年出現(xiàn)多次服務(wù)宕機(jī)，導(dǎo)致企業(yè)對(duì)公有云的信心持續(xù)走低。本文總結(jié)了 2018 年前十大云宕機(jī)事故，歡迎各位補(bǔ)充經(jīng)歷過的云服務(wù)至暗時(shí)刻。

本文首發(fā)于公眾號(hào)InfoQ，經(jīng)億歐編輯整理，供行業(yè)人士參考。

1 月 18 日：谷歌云自動(dòng)化失效導(dǎo)致宕機(jī)

事故詳情：2018 年 1 月 18 日，谷歌云自動(dòng)化機(jī)制失效，導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler（自動(dòng)擴(kuò)展器）服務(wù)無法正常運(yùn)行，該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無法與其他可用區(qū)虛擬機(jī)聯(lián)系。

補(bǔ)救措施：工程團(tuán)隊(duì)手動(dòng)切換到替換任務(wù)，以恢復(fù)數(shù)據(jù)持久層正常運(yùn)行。

宕機(jī)時(shí)間：93 分鐘

事件后續(xù)：谷歌承諾，未來如果配置數(shù)據(jù)過時(shí)，谷歌將停止虛擬機(jī)遷移，數(shù)據(jù)持久層會(huì)在長時(shí)間運(yùn)行進(jìn)程期間重新解析對(duì)等體（peer），以便故障發(fā)生時(shí)迅速切換到替換任務(wù)。

3 月 2 日：AWS 宕機(jī)致部分 Alexa 失聲

事故詳情：2018 年 3 月 2 日凌晨，依賴 AWS 服務(wù)的部分 Alexa 開始出現(xiàn)失聲問題，該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷，Alexa 也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時(shí)內(nèi)，Alexa 又接到了成千上萬封投訴。據(jù)了解，Alexa 這一故障源于亞馬遜 AWS 的網(wǎng)絡(luò)服務(wù)出現(xiàn)問題，其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響，包括軟件開發(fā)公司 Atlassian，云通訊公司 Twilio 等。

補(bǔ)救措施：亞馬遜 AWS 的在線支持團(tuán)隊(duì)對(duì)此進(jìn)行了修復(fù)。

宕機(jī)時(shí)間：數(shù)小時(shí)（因事發(fā)凌晨，未在第一時(shí)間發(fā)酵）

事件后續(xù)：亞馬遜 AWS 未對(duì)此故障進(jìn)行詳細(xì)說明，只透露與網(wǎng)絡(luò)連接有關(guān)。

5 月 31 日：AWS 北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問題

事故詳情：2018 年 5 月 31 日，因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障，AWS 再次出現(xiàn)連接問題。在此事故中，AWS 的核心 EC2 服務(wù)，Workspaces 虛擬桌面服務(wù)以及 Redshift 數(shù)據(jù)倉庫服務(wù)均受到影響。

補(bǔ)救措施：人為修復(fù)

宕機(jī)時(shí)長：30 分鐘左右

事件后續(xù)：亞馬遜公司 S3 的副總裁兼總經(jīng)理 Mai-Lan Tomsen Bukovec 近日接受采訪表示，亞馬遜從未見過數(shù)據(jù)中心崩潰。這意味著，過去的每一次事故都未曾導(dǎo)致整個(gè)數(shù)據(jù)中心的崩潰，AWS 也在系統(tǒng)設(shè)計(jì)層面進(jìn)行了改進(jìn)以防止此類事故發(fā)生。

6 月 17 日：微軟 Azure 愛爾蘭數(shù)據(jù)中心宕機(jī)

事故詳情：2018 年 6 月 17 日至 18 日，因愛爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問題，微軟 Azure 被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷。

宕機(jī)時(shí)間：5 小時(shí)以上

6 月 27 日：阿里云故障

事故詳情：2018 年 6 月 27 日 16:21 左右，阿里云出現(xiàn)重大技術(shù)故障，16:50 分開始陸續(xù)恢復(fù)，官方給出的故障時(shí)間為 30 分鐘左右，恢復(fù)時(shí)間大概花費(fèi)一小時(shí)。經(jīng)過技術(shù)復(fù)盤，阿里給出的故障原因?yàn)楣こ處焾F(tuán)隊(duì)上線自動(dòng)化運(yùn)維新功能時(shí)，執(zhí)行了一項(xiàng)變更驗(yàn)證操作，該操作在測(cè)試環(huán)境中未發(fā)生問題，上線后觸發(fā)未知 bug。

補(bǔ)救措施：人工介入，定位并解決問題。

宕機(jī)時(shí)間：30 分鐘，恢復(fù)時(shí)間花費(fèi)一小時(shí)左右。

事件后續(xù)：本次事故被定義為 S1 級(jí)別，即核心業(yè)務(wù)重要功能不可用，影響部分用戶，造成一定損失。阿里云發(fā)布官方聲明，表示“對(duì)于這次故障，沒有借口，我們不能也不該出現(xiàn)這樣的失誤！我們將認(rèn)真復(fù)盤改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程，敬畏每一行代碼，敬畏每一份托付。”

7 月 20 日：騰訊云云硬盤故障

事故詳情：2018 年 8 月 5 日，北京清博數(shù)控科技有限公司（以下簡稱“前沿?cái)?shù)控”）在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來的災(zāi)難》的博文，文中表明，2018 年 7 月 20 日，騰訊云云硬盤發(fā)生故障（騰訊云后期給出的事故原因說明），導(dǎo)致該公司存放的數(shù)據(jù)全部丟失，并且不能恢復(fù)，這是該創(chuàng)業(yè)公司近千萬元級(jí)的平臺(tái)數(shù)據(jù)，包括經(jīng)過長期推廣導(dǎo)流積累起來的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。

補(bǔ)救措施：騰訊云表示，監(jiān)控到異常后第一時(shí)間向用戶告知了故障狀態(tài)，并立即組織文件系統(tǒng)專家并聯(lián)合廠商技術(shù)專家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過多方努力，最終仍有部分?jǐn)?shù)據(jù)完整性校驗(yàn)失敗。

事件后續(xù)：騰訊云提出“賠償 + 補(bǔ)償”方案，并承諾會(huì)繼續(xù)與“前沿?cái)?shù)控”保持溝通，幫助其進(jìn)行業(yè)務(wù)恢復(fù)。

7 月 24 日：騰訊云宕機(jī)

事故詳情：2018 年 7 月 24 日，用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況，即便更換運(yùn)營商，結(jié)果也一樣。隨后，騰訊云發(fā)布通知稱初步確定是運(yùn)營商光纜中斷，運(yùn)營商已經(jīng)找到斷點(diǎn)，正在連線中，主要受影響的為廣州區(qū)域部分用戶。

補(bǔ)救措施：運(yùn)營商第一時(shí)間介入搶修。

宕機(jī)時(shí)間：宕機(jī)時(shí)間不明，恢復(fù)時(shí)間花費(fèi) 30 至 40 分鐘

Prime Day：亞馬遜 AWS 故障

事故詳情：Prime Day 是亞馬遜在全球范圍內(nèi)啟動(dòng)的為期 36 小時(shí)的會(huì)員促銷活動(dòng)，活動(dòng)剛開始，亞馬遜網(wǎng)站及 App 就同時(shí)發(fā)生嚴(yán)重宕機(jī)，不光電子商務(wù)業(yè)務(wù)受損，亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對(duì)此給出的解釋是 AWS 管理控制臺(tái)出現(xiàn)全球性問題。

宕機(jī)時(shí)間：故障持續(xù)了將近 6 小時(shí)。

事件后續(xù)：AWS 發(fā)言人表示，間歇性的 AWS 管理控制臺(tái)問題并未對(duì)亞馬遜的消費(fèi)者業(yè)務(wù)產(chǎn)生任何有意義的影響。

9 月 4 日：微軟 Azure 數(shù)據(jù)中心遭雷劈宕機(jī)

事故詳情：9 月 4 日上午，微軟 Azure 美國中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣，影響冷卻系統(tǒng)的電壓，導(dǎo)致多個(gè) Azure 服務(wù)出現(xiàn)連接問題，客戶難以訪問存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。

補(bǔ)救措施：9 月 5 日上午，微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備，其他服務(wù)也在陸續(xù)恢復(fù)中。

宕機(jī)時(shí)間：超過 24 小時(shí)

11 月 9 日：谷歌公有云下的 Kubernetes 服務(wù)（GKE）宕機(jī)

事故詳情：11 月 9 日，谷歌公有云上提供的 Kubernetes 服務(wù)（GKE）節(jié)點(diǎn)池建置功能出現(xiàn)異常，維運(yùn)人員無法透過 Cloud Console UI 建立新節(jié)點(diǎn)。

補(bǔ)救措施：谷歌派工程團(tuán)隊(duì)調(diào)查故障原因，并開始著手維修。谷歌表示，受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command，建置新 Kubernetes 節(jié)點(diǎn)。

宕機(jī)時(shí)間：接近 19 小時(shí)

總結(jié)：

對(duì)于很多中小企業(yè)來說，自建機(jī)房的人力和維護(hù)成本太高，他們希望利用云計(jì)算的低成本、可擴(kuò)展性、可靠性和便利性等好處，但卻擔(dān)心面臨風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)通常是相同的，例如安全漏洞、監(jiān)管問題，以及缺乏有關(guān)如何構(gòu)建最佳云計(jì)算基礎(chǔ)設(shè)施的知識(shí)。而在過去幾年，云供應(yīng)商還發(fā)生過數(shù)起大大小小的故障，也說明企業(yè)的擔(dān)心不是多余的。隨著越來越多的企業(yè)和政府機(jī)構(gòu)將數(shù)據(jù)上云，即便只是一個(gè)小小的宕機(jī)都可能引發(fā)很大的災(zāi)難。即便是提供 99.9% 可靠性的阿里云，那 0.1% 的宕機(jī)還是發(fā)生了。

考慮到企業(yè)的這些需求，現(xiàn)在混合云的趨勢(shì)也比較明顯，很多公有云廠商都在布局混合云市場(chǎng)。借助混合云，企業(yè)在提高生產(chǎn)力的同時(shí)還能降低成本，也不用完全投入到公有云當(dāng)中。但是混合云也還存在兼容性和安全合規(guī)性方面的挑戰(zhàn)，所以為了盡可能地減少故障帶來的損失，企業(yè)不僅要建立完善的災(zāi)備保障體系，還應(yīng)該對(duì)災(zāi)備系統(tǒng)進(jìn)行定期演練。

2018 年你經(jīng)歷過這些公有云故障嗎？你怎么看這個(gè)問題呢？

歡迎留言說出你的想法。

云服務(wù)經(jīng)歷的至暗時(shí)刻，2018十大云宕機(jī)事故盤點(diǎn)