自動(dòng)化運(yùn)維,開源大有可為
近年來,隨著科技技術(shù)的不斷進(jìn)步,IT廣泛地滲透到我們的生產(chǎn)和生活中,“IT即業(yè)務(wù)”也成為越來越多行業(yè)的一個(gè)共同特征,IT的重要性不言而喻。與此同時(shí),IT技術(shù)演進(jìn)的速度越來越快,系統(tǒng)的復(fù)雜性與日俱增,而運(yùn)維的預(yù)算并沒有相應(yīng)增加,有的甚至只減不增。在這一背景下,自動(dòng)化、智能化成為IT運(yùn)維的必然之選,如何實(shí)現(xiàn)自動(dòng)化、智能化成為IT運(yùn)維人員和CIO必須思考的問題,而開源運(yùn)維平臺(tái)以其廣泛的適應(yīng)性、靈活性以及技術(shù)先進(jìn)性備受青睞。
更復(fù)雜的IT環(huán)境,更少的預(yù)算
對(duì)今天的IT運(yùn)維人員而言,要保證系統(tǒng)的可靠運(yùn)行面臨著挑戰(zhàn)越來越大。一方面,業(yè)務(wù)更新和變化越來越頻繁,業(yè)務(wù)對(duì)IT的靈活度、可擴(kuò)展性、交付效率等要求越來越高,另一方面,新的技術(shù)不斷涌現(xiàn),新技術(shù)在加速創(chuàng)新的同時(shí)也對(duì)業(yè)務(wù)的連續(xù)性、安全性、穩(wěn)定性也構(gòu)成了挑戰(zhàn)。面對(duì)這些挑戰(zhàn),傳統(tǒng)的依靠個(gè)人經(jīng)驗(yàn)、靠人工或者依靠腳本打天下的日子越來越難以為繼。
“運(yùn)維人員要做的事情變多了、變復(fù)雜了,業(yè)務(wù)對(duì)我們要求又變高了,同時(shí)預(yù)算又變少了,如何應(yīng)對(duì)這個(gè)問題,的確值得好好去規(guī)劃。”紅帽資深解決方案架構(gòu)師嚴(yán)興華告訴至頂網(wǎng)記者。
嚴(yán)興華是一位資深的咨詢顧問,曾在惠普、IBM、埃森哲等多個(gè)公司工作,參與眾多數(shù)字化轉(zhuǎn)型項(xiàng)目的規(guī)劃,對(duì)這個(gè)行業(yè)的變化深有感觸,對(duì)IT運(yùn)維目前的困境感同身受。
他告訴記者,對(duì)運(yùn)維人員而言,最為核心的是要確保企業(yè)業(yè)務(wù)的連續(xù)性,而今天要做到這一點(diǎn)變得越來越困難。因?yàn)槠髽I(yè)業(yè)務(wù)越來越復(fù)雜,為了支撐業(yè)務(wù),數(shù)據(jù)中心變得越來越龐大,數(shù)據(jù)量越來越多。同時(shí),需求發(fā)生的變化頻率越來越快,而且業(yè)務(wù)要求對(duì)變化的響應(yīng)要快。比如,前些年“互聯(lián)網(wǎng)+”很流行,“互聯(lián)網(wǎng)+”的核心是把業(yè)務(wù)互聯(lián)網(wǎng)化,背后的一個(gè)潛臺(tái)詞就是“敏捷”,IT要能敏捷地支持業(yè)務(wù)的快速變化。
另一方面,這些年IT基礎(chǔ)架構(gòu)也在發(fā)生重大變化,在虛擬化、云計(jì)算之后,緊接著又迎來了容器化。在普遍容器化的時(shí)代,運(yùn)維模式和傳統(tǒng)的物理機(jī)時(shí)代、虛擬化時(shí)代甚至云計(jì)算時(shí)代都有很大不同。
“今天要監(jiān)控的對(duì)象、要采集的數(shù)據(jù)和處理手段都發(fā)生了變化,要管理的對(duì)象變得更多,數(shù)據(jù)量變得更大。同時(shí),多種IT環(huán)境(傳統(tǒng)的物理機(jī)、虛擬化環(huán)境、云計(jì)算、容器)并存,使得IT環(huán)境非常復(fù)雜。”嚴(yán)興華說。
還有,大量涌現(xiàn)的新場(chǎng)景迫使運(yùn)維技術(shù)和手段必須更新,這些場(chǎng)景包括大數(shù)據(jù)以及各種人工智能等各種數(shù)據(jù)分析。在運(yùn)維面臨的種種壓力和挑戰(zhàn)面臨,自動(dòng)化幾乎是必然的選擇。
“只有自動(dòng)化才可以幫助企業(yè)解決業(yè)務(wù)連續(xù)性、穩(wěn)定性問題,才可以應(yīng)對(duì)新技術(shù)給運(yùn)維帶來的挑戰(zhàn)。”嚴(yán)興華說。
實(shí)際上,今天運(yùn)維也的確正在走向自動(dòng)化、智能化,一些運(yùn)維水平比較高企業(yè)現(xiàn)在甚至已經(jīng)有一些比較好的自動(dòng)化體系,包括有了成熟的管理流程和一些對(duì)應(yīng)的工具。不過,大多數(shù)企業(yè)還在摸索階段,特別是一些傳統(tǒng)企業(yè),并沒有成熟的運(yùn)維流程和可靠好用的運(yùn)維工具。
選開源還是閉源?
作為企業(yè)CIO或者IT運(yùn)維負(fù)責(zé)人,面對(duì)運(yùn)維當(dāng)前的困境如何破?嚴(yán)興華提出了三個(gè)建議。首先,要對(duì)運(yùn)維目前整體水平有一定了解,給自己的企業(yè)明確一個(gè)標(biāo)桿。其次,對(duì)于本企業(yè)的運(yùn)維水平有正確的認(rèn)知,特別是與同行的對(duì)比,本企業(yè)處于什么水平。第三,需要選擇合適的運(yùn)維平臺(tái)和工具。
“其中尤其要注意的是要有全局觀點(diǎn)和整體規(guī)劃,一個(gè)常犯的錯(cuò)誤就是滿足于一個(gè)個(gè)小的解決方案,比如寫一個(gè)腳本解決一個(gè)問題。” 嚴(yán)興華提醒說。
合適的工具和平臺(tái)是確保自動(dòng)化運(yùn)維成功的關(guān)鍵。目前,有兩大技術(shù)方向,即開源和閉源,如何選擇也是不少企業(yè)面臨的一個(gè)困惑。作為一個(gè)運(yùn)維行業(yè)多年工作經(jīng)驗(yàn),并且在開源(紅帽)、閉源(IBM、惠普等)都有過工作經(jīng)歷的資深從業(yè)者,嚴(yán)興華的觀點(diǎn)是,到底該選開源還是閉源并沒有絕對(duì)的答案,合適的才是最好的,但企業(yè)在決定之前一定要對(duì)這兩類平臺(tái)的優(yōu)缺點(diǎn)有全面的認(rèn)識(shí)。
一般而言,閉源產(chǎn)品和方案具有如下特點(diǎn):第一,功能比較多,比較全面,但模塊關(guān)系比較復(fù)雜,架構(gòu)比較重;第二,如果企業(yè)已經(jīng)部署了一些工具,一般不太好與它們進(jìn)行整合,大概率要放棄原來的工具。
“閉源產(chǎn)品往往功能很全,幾乎是面面俱到。到落地時(shí)候如果客戶有新的個(gè)性化需求或一些功能需要擴(kuò)展,或者是業(yè)務(wù)發(fā)生變化的時(shí)候需要對(duì)軟件進(jìn)行調(diào)整,會(huì)比較困難。”嚴(yán)興華表示。
另外,閉源產(chǎn)品更新迭代周期非常長(zhǎng),基本上就是小版本也要半年,大版本可能2-3年,穩(wěn)定性是不錯(cuò),但是這些年技術(shù)更新得非?,很容易出現(xiàn)運(yùn)維平臺(tái)從上線的第一天就落后,這也正是很多閉源軟件廠商逐漸被市場(chǎng)淘汰的原因之一。
第三,部署周期比較長(zhǎng),價(jià)格也比較貴。當(dāng)然它也有它的好處,就是針對(duì)一些大型企業(yè),它的大而全能全面匹配這些企業(yè)的需求。
而開源在這些方面的表現(xiàn)完全不同。今天的開源工具幾乎都采用了最流行的技術(shù),廣泛采用分布式、輕量級(jí)、模塊化的架構(gòu),支持快速橫向擴(kuò)展。比如開源的自動(dòng)化工具Ansible就是如此,其不僅功能多,同時(shí)迭代也非?。而且,對(duì)于開源產(chǎn)品,用戶擁有更大的自主權(quán)和靈活性,結(jié)合其模塊化的架構(gòu),稍微調(diào)整就能快速投入使用。另外,不少開源產(chǎn)品采用非侵入式部署,部署后對(duì)企業(yè)原來的運(yùn)維體系不會(huì)產(chǎn)生太大的影響,而且上線周期可以非常短,
同樣,開源也有不足。比如,開源軟件對(duì)使用者技術(shù)能力要求比較高,學(xué)習(xí)曲線比較陡,易學(xué)難精,雖然很快可以用起來,但用好需要求助于社區(qū)或者自己要投入比較多的時(shí)間。使用中一旦出了問題,沒有人來兜底。另外,開源軟件還有一個(gè)通病是,由于來自國(guó)外,其設(shè)計(jì)主要基于國(guó)外用戶的使用習(xí)慣,對(duì)于中國(guó)用戶不太友好。
讓更多人從開源軟件中受益
開源的運(yùn)維平臺(tái)具有諸多優(yōu)點(diǎn),同時(shí)缺點(diǎn)也是實(shí)實(shí)在在。問題的關(guān)鍵是如何揚(yáng)長(zhǎng)避短,讓開源的運(yùn)維平臺(tái)或者工具能為我所用。實(shí)際上,在業(yè)界共同努力下,特別是有像紅帽這樣的開源公司的存在,開源平臺(tái)的挑戰(zhàn)正在逐步得到解決:因?yàn)槭袌?chǎng)上出現(xiàn)了一些基于開源軟件來構(gòu)建一站式的解決方案以及相關(guān)的咨詢和技術(shù)服務(wù),從而大大降低了開源軟件的門檻。
紅帽的OPlus就是一個(gè)面向運(yùn)維市場(chǎng)的插件。嚴(yán)興華介紹說,OPlus基于自動(dòng)化運(yùn)維工具Ansible構(gòu)建。它有幾個(gè)特點(diǎn):首先,它是非侵入式,不需要對(duì)企業(yè)已有運(yùn)維架構(gòu)進(jìn)行任何調(diào)整,也不用在服務(wù)器上部署探針,開箱即用。其次,OPlus把執(zhí)行工作交給了Ansible,而自己側(cè)重在UI,側(cè)重在數(shù)據(jù)的集成,克服了傳統(tǒng)開源工具對(duì)用戶不太友好的問題。第三,OPlus支持二次開發(fā),方便運(yùn)維人員進(jìn)行優(yōu)化。
“OPlus不是在Ansible上套個(gè)皮,OPlus還是一個(gè)運(yùn)維開發(fā)平臺(tái),運(yùn)維人員可以在此上自主開發(fā)。而且紅帽已經(jīng)給大家準(zhǔn)備好了很多常用的功能模塊,類似積木,運(yùn)維人員可以按照自己的需求進(jìn)行組合,來滿足日常的大部分運(yùn)維需求。”嚴(yán)興華說。
另外, OPlus支持可視化的拖拽式開發(fā)。OPlus把功能做成了API,通過API快速調(diào)用,通過統(tǒng)一的接口屏蔽了各個(gè)不同平臺(tái)或者不同對(duì)象間的差異。
更值得一提的是,紅帽在OPlus中內(nèi)置了針對(duì)RHEL、CentOS的安全、合規(guī)、性能等70多個(gè)巡檢常用的指標(biāo),可以幫助客戶快速發(fā)現(xiàn)問題提前做預(yù)防。這是客戶比較喜歡的功能之一。同樣,客戶比較喜歡的還有補(bǔ)丁管理。Ansible不止是針對(duì)紅帽的產(chǎn)品,也支持對(duì)其他一些開源軟件進(jìn)行補(bǔ)丁管理。另外,還有權(quán)限和密碼管理也是比較貼心的功能。
據(jù)悉,OPlus已經(jīng)擁有眾多用戶,某博彩娛樂公司就是其中之一。該公司業(yè)務(wù)眾多,導(dǎo)致IT系統(tǒng)非常復(fù)雜,裸金屬服務(wù)器、虛擬化、容器并存,同時(shí),多個(gè)業(yè)務(wù)也導(dǎo)致網(wǎng)絡(luò)環(huán)境非常復(fù)雜,以前一直是各個(gè)業(yè)務(wù)單獨(dú)進(jìn)行運(yùn)維管理。更有挑戰(zhàn)的是,博彩業(yè)對(duì)實(shí)時(shí)性要求很高,這些都對(duì)運(yùn)維工具提出了很高的要求。在紅帽的支持下,該公司部署OPlus,實(shí)現(xiàn)了10多萬臺(tái)服務(wù)器的統(tǒng)一納管,大大提升了管理效率,為其業(yè)務(wù)提供了可靠的支撐。
當(dāng)然,紅帽不止是提供運(yùn)維工具和平臺(tái),為了幫助客戶徹底解決運(yùn)維煩惱,紅帽還提供相關(guān)咨詢服務(wù)。嚴(yán)興華介紹說,紅帽有一套成熟度模型,通過這個(gè)模型客戶可以從多個(gè)維度對(duì)企業(yè)的運(yùn)維水平進(jìn)行評(píng)價(jià),了解自己在各個(gè)維度里面自動(dòng)化水平是怎樣的,自己跟業(yè)界以及和期望的目標(biāo)差距有多大。基于紅帽再和客戶一起制定出一個(gè)解決方案。
“這個(gè)解決方案包括整體提升計(jì)劃,要補(bǔ)充哪些工具,哪些工具要做調(diào)整和優(yōu)化,以及各個(gè)工具之間如何去做貫通和整合等。”嚴(yán)興華表示。
當(dāng)然,自動(dòng)化只是提升運(yùn)維水平的一個(gè)步驟,運(yùn)維最終會(huì)走向智能化,特別是近年來隨著AI技術(shù)的進(jìn)步,AIOps非常熱。對(duì)此,嚴(yán)興華表示,AIOps的價(jià)值大家非常認(rèn)可,現(xiàn)在的問題是如何讓AIOps落地。
“對(duì)于紅帽而言,我們會(huì)通過Ansible來保證所有的執(zhí)行可以平滑的,不會(huì)出現(xiàn)任何差錯(cuò)。同時(shí),紅帽也會(huì)和企業(yè)、大學(xué)或者研究團(tuán)隊(duì)一起,同時(shí)借助紅帽全球和開源社區(qū)的力量,共同探討AIOps在哪些場(chǎng)景更好落地,以期間讓AIOps真正賦能客戶,來更好地支持業(yè)務(wù),支持企業(yè)的數(shù)字化轉(zhuǎn)型。”嚴(yán)興華說。

