AIOps,SRE工程師手中的利器
隨著數(shù)字化浪潮的推進(jìn),出現(xiàn)了越來(lái)越多大型和超大型數(shù)據(jù)中心,通常這些數(shù)據(jù)中心承載了大量業(yè)務(wù),其中不乏事關(guān)國(guó)計(jì)民生的應(yīng)用(比如公有云服務(wù)商的數(shù)據(jù)中心),一旦出現(xiàn)故障,必須以閃電般的速度加以解決,最好讓最終用戶或客戶根本就感受不到故障的發(fā)生。
而另一方面,現(xiàn)代應(yīng)用程序需要能夠快速響應(yīng)客戶需求,需要快速迭代,這對(duì)基礎(chǔ)設(shè)施可靠性形成巨大壓力,一旦出現(xiàn)性能問(wèn)題甚至服務(wù)中斷,現(xiàn)代應(yīng)用程序造成的影響反而比傳統(tǒng)應(yīng)用更嚴(yán)重。
為了應(yīng)對(duì)這些需求,SRE(Site Reliability Engineer)應(yīng)運(yùn)而生。相比于傳統(tǒng)的運(yùn)維,SRE面臨的挑戰(zhàn)更大,應(yīng)對(duì)的局面更為復(fù)雜。此時(shí),一個(gè)好用工具無(wú)疑能對(duì)SRE工程師帶來(lái)很大幫助,特別是能幫助SRE判斷問(wèn)題優(yōu)先級(jí)、迅速發(fā)現(xiàn)故障并幫助解決的工具。AIOps的價(jià)值正在于此。隨著軟件與基礎(chǔ)設(shè)施資產(chǎn)的迅猛拓展,AIOps能夠自動(dòng)檢測(cè)到環(huán)境中的異常、為團(tuán)隊(duì)提供必要的安全性加持,保證在問(wèn)題擴(kuò)大化、復(fù)雜化之前及時(shí)將其解決。
SRE與AIOps
從事運(yùn)維工作的人一定對(duì)SRE(Site Reliability Engineer)不會(huì)陌生,這個(gè)從國(guó)外大型互聯(lián)網(wǎng)公司流行起來(lái)的詞匯,這幾年準(zhǔn)備在國(guó)內(nèi)流行開(kāi)來(lái)。今天,在中國(guó)不僅一些大型公司如阿里設(shè)有SRE這個(gè)崗位,一些傳統(tǒng)公司甚至開(kāi)始模仿。
SRE最早在十多年前Google提出并應(yīng)用,Google出版的《Site Reliability Engineering》一書在國(guó)內(nèi)廣為流傳。盡管在國(guó)內(nèi)有些人把SRE直接理解為運(yùn)維或者系統(tǒng)管理,其實(shí)SRE與運(yùn)維和系統(tǒng)管理雖有重合,但卻有很大區(qū)別。根據(jù)Google對(duì)SRE的定位,Google SRE團(tuán)隊(duì)的職責(zé)包括容量規(guī)劃、分布式系統(tǒng)監(jiān)控、負(fù)載均衡、服務(wù)容錯(cuò)、on-call、故障應(yīng)急、業(yè)務(wù)協(xié)同支持等。
從工作定位來(lái)看,SRE有運(yùn)維的工作。比如,SRE要負(fù)責(zé)生產(chǎn)環(huán)境(網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、數(shù)據(jù)庫(kù)、中間件等)的穩(wěn)定性保障工作,在日常on-call與故障應(yīng)急工作中,運(yùn)維能力必不可少。但SRE不止于運(yùn)維。嚴(yán)格地說(shuō),SRE是一個(gè)技能綜合性崗位,不僅需要運(yùn)維能力,也需要軟件工程能力、技術(shù)架構(gòu)能力、編碼能力、以及項(xiàng)目管理與團(tuán)隊(duì)協(xié)作能力。而在SRE做些這個(gè)工作時(shí),AIOps是可以發(fā)揮重要作用的。
實(shí)際上,隨著應(yīng)用程序與基礎(chǔ)設(shè)施的蓬勃發(fā)展,AIOps也開(kāi)始成為一種極為重要的SRE工程師手中重要的工程工具。它能夠高效地整合各種系統(tǒng)指標(biāo)、日志以及來(lái)自第三方工具的數(shù)據(jù),判斷系統(tǒng)運(yùn)行狀態(tài)并保證其處于最佳狀態(tài)。為了幫助團(tuán)隊(duì)識(shí)別并診斷問(wèn)題,算法與機(jī)器學(xué)習(xí)工具隨后會(huì)被整合至數(shù)據(jù)之內(nèi),借此充實(shí)關(guān)于現(xiàn)狀的情報(bào),甚至有望自動(dòng)高效地完成事件響應(yīng)。
AIOps的5大應(yīng)用場(chǎng)景
實(shí)際工作中,AIOps可以在以下五種場(chǎng)景發(fā)揮重要作用:
1. 檢測(cè)事件這也是AIOps擴(kuò)展工具包的核心應(yīng)用,它能幫助團(tuán)隊(duì)快速發(fā)現(xiàn)問(wèn)題。AI與機(jī)器學(xué)習(xí)能夠自動(dòng)梳理異常跡象,而后將學(xué)習(xí)結(jié)果用于觀察系統(tǒng)及基礎(chǔ)設(shè)施的運(yùn)行態(tài)勢(shì)。憑借這種自動(dòng)性方法,AIOps能夠及時(shí)發(fā)現(xiàn)預(yù)警信號(hào),幫助運(yùn)營(yíng)團(tuán)隊(duì)在客戶體驗(yàn)受到影響之前就及時(shí)介入。
2. 減少及消除干擾事件響應(yīng)當(dāng)中,從眾多警報(bào)中找到關(guān)鍵信息一直是個(gè)大問(wèn)題。太多警報(bào)往往令員工的神經(jīng)變得麻木,難以發(fā)現(xiàn)真正緊急的狀況。理想情況下,我們需要準(zhǔn)確判斷哪些警報(bào)優(yōu)先級(jí)較低、哪些警報(bào)彼此關(guān)聯(lián)。AIOps能夠關(guān)聯(lián)、精簡(jiǎn)警報(bào)并確定其優(yōu)先級(jí),借此消除警報(bào)疲勞問(wèn)題、幫助團(tuán)隊(duì)高效處理對(duì)可靠性威脅最大的故障。
3. 整合相關(guān)信息突發(fā)事件往往非;靵y,而且形勢(shì)也瞬息萬(wàn)變。過(guò)多信息會(huì)導(dǎo)致團(tuán)隊(duì)迷失方向,為此必須為運(yùn)營(yíng)人員提供背景信息,幫助他們找到正確的方向。AIOps能夠自動(dòng)對(duì)事件做出映射,同時(shí)建立起全面了解。除了理解以外,背景信息在事件解決方面同樣有著重要作用。
4. 提升智能化水平AIOps是一種不斷發(fā)展的有效工具。過(guò)往經(jīng)驗(yàn)、當(dāng)前使用方式以及用戶反饋等,共同為AIOps提供良好的訓(xùn)練數(shù)據(jù),進(jìn)而幫助我們識(shí)別并預(yù)防以往曾經(jīng)發(fā)生或較為類似的問(wèn)題。隨著信息的不斷積累,模型智能化程度將持續(xù)提升,最終提供更具針對(duì)性的關(guān)聯(lián)、洞見(jiàn)與建議。
5. 整合數(shù)據(jù)、統(tǒng)一團(tuán)隊(duì)任何來(lái)源的事件數(shù)據(jù),都會(huì)與您的現(xiàn)有事件管理工具及工作流集成在一處。您輸入的數(shù)據(jù)越多,機(jī)器學(xué)習(xí)模型的訓(xùn)練度也就越高,產(chǎn)生有針對(duì)性、高實(shí)用度結(jié)果的幾率就更高。AIOps解決方案能夠吸納數(shù)據(jù),通過(guò)背景信息豐富數(shù)據(jù)內(nèi)容,并將結(jié)果通報(bào)至相關(guān)團(tuán)隊(duì)或響應(yīng)人員手中,以供各個(gè)事件管理團(tuán)隊(duì)加以使用。以此為基礎(chǔ),各團(tuán)隊(duì)將不必把時(shí)間浪費(fèi)在不同工具的往來(lái)切換當(dāng)中。
對(duì)于尚未開(kāi)始使用AIOps的組織而言,這項(xiàng)工作聽(tīng)起來(lái)似乎繁復(fù)無(wú)比。沒(méi)錯(cuò),AIOps確有一定門檻,但目前已經(jīng)有不少實(shí)踐標(biāo)準(zhǔn)能夠幫助我們較為輕松地跨過(guò)這些門檻。
首先,考慮最適合自身需求的用例。縮小思考范圍,從小處入手開(kāi)始學(xué)習(xí),并在測(cè)試中不斷成長(zhǎng)。
其次,保證工作流程的透明化。人們天然會(huì)抵觸變化,所以大家必須破除迷團(tuán)、讓AIOps呈現(xiàn)出清晰明確的形象。
最后,為囊括AI及ML元素的新型IT運(yùn)營(yíng)體系做好準(zhǔn)備。如今,采用AIOps技術(shù)支持運(yùn)營(yíng)體系的組織越來(lái)越多,相信它也終將成為顛覆傳統(tǒng)運(yùn)營(yíng)理念與運(yùn)營(yíng)思維的主流解決方案。

