云平臺(tái)加速向AI就緒進(jìn)化
人工智能以大家可以感知的速度在快速普及。如今,越來越多的公司已經(jīng)或者正在評估使用人工智能技術(shù),來為其提供不可或缺的客戶洞察力和業(yè)務(wù)工具。IDC的數(shù)據(jù),2021年全球AI市場收入預(yù)計(jì)將同比增長15.2%,達(dá)到3418億美元,2022年將進(jìn)一步加速增長,增幅達(dá)到18.8%。
人工智能技術(shù)的普及也對底層架構(gòu)提出了新的要求,這些要求不僅體現(xiàn)在較高的計(jì)算密度和更大傳輸能力的網(wǎng)絡(luò),還體現(xiàn)在要更好地承載AI應(yīng)用的開發(fā)和部署。另一方面,隨著云計(jì)算和容器的普及,企業(yè)開始利用容器來獲得AI和機(jī)器學(xué)習(xí)生命周期的靈活性、可移植性和可靠性,容器化AI逐漸成為一種越來越常見的部署方式。在這一背景下,一些云平臺(tái)將對AI應(yīng)用的支持作為一個(gè)重點(diǎn),面向AI應(yīng)用的容器云平臺(tái)也由此應(yīng)運(yùn)而生。
對AI支持成為云平臺(tái)的核心能力
鑒于容器化應(yīng)用帶來的可移植性、可擴(kuò)展性等能力,利用Docker和K8s搭建容器云成為眾多企業(yè)的主流應(yīng)用部署平臺(tái),支撐著企業(yè)越來越多的應(yīng)用,其中不乏核心的關(guān)鍵業(yè)務(wù)應(yīng)用。另一方面,AI給企業(yè)帶來的眾多商業(yè)價(jià)值和商業(yè)機(jī)會(huì)使得企業(yè)AI應(yīng)用的數(shù)量迅速增長,在云平臺(tái)部署AI應(yīng)用成為企業(yè)很自然的選擇。
通過云平臺(tái)或者容器云平臺(tái)來統(tǒng)一部署包括AI在內(nèi)的所有應(yīng)用看起來很有吸引力。比如,AI項(xiàng)目通常變化快,需要快速、靈活且可擴(kuò)展的環(huán)境,而云特別是混合云通過內(nèi)部部署和云資源的結(jié)合能很好地滿足這些需求。在混合云環(huán)境中,當(dāng)需求超過內(nèi)部最大能力時(shí),可以使用外部云資源快速擴(kuò)展,不管是計(jì)算還是存儲(chǔ)能力。這不僅帶來靈活性,還能帶來成本的節(jié)約。
不過,那些沒有專門為AI優(yōu)化的云平臺(tái)對于傳統(tǒng)應(yīng)用程序可能很好,但對于數(shù)據(jù)密集型應(yīng)用程序(AI應(yīng)用)可能會(huì)存在問題,比如過高延遲、性能不足,在流程上也不方便。因?yàn)檫@些平臺(tái)并不能保證性能或保證處理 AI 數(shù)據(jù)所需的容量,換而言之,并非為 AI 提供端到端的應(yīng)用服務(wù)而進(jìn)行了優(yōu)化。
AI系統(tǒng)是由深度學(xué)習(xí)框架、AI應(yīng)用以及服務(wù)部署組成的一個(gè)閉環(huán)。在一個(gè)傳統(tǒng)的容器云平臺(tái)部署AI應(yīng)用,首先要為AI應(yīng)用提供一個(gè)運(yùn)行環(huán)境,其中一個(gè)重要工作是部署各種AI工具,比如深度學(xué)習(xí)框架。眾所周知,深度學(xué)習(xí)框架大部分是開源產(chǎn)品,到底選用哪個(gè)版本是一個(gè)挑戰(zhàn),更何況部署完后還需要不斷更新。其次,AI應(yīng)用的開發(fā)涉及數(shù)據(jù)獲取、特征工程轉(zhuǎn)換、模型分布式訓(xùn)練、模型驗(yàn)證、模型灰度發(fā)布、GPU 資源監(jiān)控管理等,將整套流程的打通,并實(shí)現(xiàn)與其他應(yīng)用的資源隔離,這些都不是原生的容器和 K8s技術(shù)所能支持的,需要進(jìn)行大量技術(shù)創(chuàng)新。
因此,一些容器云平臺(tái)開始面向AI應(yīng)用進(jìn)行優(yōu)化,包括實(shí)現(xiàn)各種AI工具、框架的預(yù)集成,同時(shí),打通數(shù)據(jù)獲取、清洗、分析處理、建模等流程,為AI應(yīng)用的開發(fā)和部署提供盡可能地方便。
OpenShift擁抱AI
在容器云領(lǐng)域,OpenShift是一個(gè)重要的力量,尤其是在開源領(lǐng)域,OpenShift更是主流的存在。作為一個(gè)企業(yè)級的基于Kubernetes的容器平臺(tái),它提供了面向企業(yè)應(yīng)用的容器開發(fā)、部署和管理運(yùn)維功能,今天不少企業(yè)將自己的容器化應(yīng)用部署在OpenShift平臺(tái)。
只是OpenShift本身并非專門為AI應(yīng)用而生,當(dāng)在OpenShift上開發(fā)和部署AI應(yīng)用的時(shí)候面臨不少挑戰(zhàn),比如與各種AI框架的集成、流程的規(guī)范、監(jiān)控和管理等。另外,傳統(tǒng)應(yīng)用和AI應(yīng)用開發(fā)常常屬于兩個(gè)不同的群體,AI應(yīng)用由數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師為主體,變化快,相關(guān)工具和框架的迭代也很快,將這些應(yīng)用投入到生產(chǎn)環(huán)境面臨挑戰(zhàn)。而另一方面,在OpenShift平臺(tái)上的DevOps開發(fā)實(shí)踐應(yīng)用于AI應(yīng)用也是非常有意義的。
為此,紅帽致力于實(shí)現(xiàn)在OpenShift平臺(tái)上提供對AI的支持,將這兩部分開發(fā)整合起來,這就有了Open Data Hub(簡稱ODH)項(xiàng)目。ODH是紅帽一個(gè)開源項(xiàng)目,它將20多種常用工具整合到一個(gè)框架中。ODH匯集了用在典型 AI 工作流程中自動(dòng)執(zhí)行任務(wù)的各種軟件組件,簡化了數(shù)據(jù)專業(yè)人員對 AI 和機(jī)器學(xué)習(xí)功能的訪問,從而大大方便了數(shù)據(jù)專業(yè)人員的工作。比如,Open Data Hub預(yù)集成常見的開發(fā)框架Tensflows、Pytorch等,免除了企業(yè)集成和驗(yàn)證之苦。
ODH誕生于5年前,最早只是紅帽內(nèi)部項(xiàng)目,用于存儲(chǔ)大量數(shù)據(jù),以便數(shù)據(jù)科學(xué)家可以訪問海量數(shù)據(jù)以構(gòu)建模型。項(xiàng)目最初,紅帽工程師選擇了 Ceph作為存儲(chǔ)系統(tǒng),隨后工程師又將一些工具加入進(jìn)來,包括Jupyter、Apache Spark 和 TensorFlow。有些 Red Hat 客戶知道后對這個(gè)軟件很感興趣,并表示要試用該軟件。這樣,在2018 年紅帽公司決定將 ODH 變成一個(gè)開源項(xiàng)目,供普通大眾下載和使用。
ODH 軟件運(yùn)行在 OpenShift 之上,Red Hat 建議使用開源 Ceph 平臺(tái) Ceph Storage,但任何與 S3 兼容的對象存儲(chǔ)都應(yīng)該可以使用。ODH在 Kubernetes 和 S3/Ceph 基礎(chǔ)之上,匯集了許多其他開源項(xiàng)目,這些項(xiàng)目被世界各地的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)工程師使用。比如,ODH 支持 Spark、TensorFlow、PyTorch、Spark SQL、Elasticsearch、Kafka Streams,還有可供數(shù)據(jù)管理員和 DevOps 工程師使用的一些工具,并且這種能力已經(jīng)很好地集成在OpenShift中。在OpenShift中只要進(jìn)行一些簡單的點(diǎn)選,就可以部署一個(gè)包括Knative、Tensflows、Kafa等各種軟件的開發(fā)環(huán)境,對于AI應(yīng)用的開發(fā)非常友好,同時(shí),OpenShift原來的DevOps能力、CI/CD能力也能為AI開發(fā)所用,極大地方便了AI應(yīng)用的開發(fā)。
今天,面對智能化應(yīng)用的大潮,企業(yè)必須擁抱AI,一個(gè)好的開發(fā)和部署平臺(tái)必不可少。紅帽通過OpenShift的容器化能力+ODH所提供的人工智能支持,可以幫助用戶打造一個(gè)功能更為全面的新一代應(yīng)用開發(fā)和部署平臺(tái)。其中尤為重要的是,這種能力是建立在開源平臺(tái)上,避免了廠商鎖定,能最大程度地賦能客戶創(chuàng)新,助力其開發(fā)出更具商業(yè)價(jià)值的新一代應(yīng)用,以加速企業(yè)的數(shù)字化轉(zhuǎn)型之旅。

