英特爾提供的Hadoop發(fā)行版包含Hadoop分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫(kù)HBase、分布式計(jì)算框架MapReduce、數(shù)據(jù)倉(cāng)庫(kù)Hive、數(shù)據(jù)處理Pig、機(jī)器學(xué)習(xí)Mahout商業(yè)套件。
其中,Hadoop 分布式文件系統(tǒng)(HDFS)是運(yùn)行在通用硬件上的分布式文件系統(tǒng)。HDFS提供了一個(gè)高度容錯(cuò)性和高吞吐量的海量數(shù)據(jù)存儲(chǔ)解決方案。它具備高吞吐量訪問(wèn)、無(wú)縫容量擴(kuò)充、高度容錯(cuò)的特點(diǎn)。
HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。HBase不是一個(gè)關(guān)系型數(shù)據(jù)庫(kù),其設(shè)計(jì)目標(biāo)是用來(lái)解決關(guān)系型數(shù)據(jù)庫(kù)在處理海量數(shù)據(jù)時(shí)的理論和實(shí)現(xiàn)上的局限性。HBase從一開(kāi)始就是為T(mén)erabyte到Petabyte級(jí)別的海量數(shù)據(jù)存儲(chǔ)和高速讀寫(xiě)而設(shè)計(jì),這些數(shù)據(jù)要求能夠被分布在數(shù)千臺(tái)普通服務(wù)器上,并且能夠被大量并發(fā)用戶高速訪問(wèn)。
MapReduce是一個(gè)高性能的批處理分布式計(jì)算框架,用于對(duì)海量數(shù)據(jù)進(jìn)行并行分析和處理。MapReduce適合處理各種類(lèi)型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
Hive是一種建立在Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。它采用HDFS進(jìn)行數(shù)據(jù)存儲(chǔ)并利用MapReduce 框架進(jìn)行數(shù)據(jù)操作。所以從本質(zhì)上來(lái)說(shuō),Hive就是個(gè)編譯器,它把用戶的操作(查詢或者ETL)變換成MapReduce任務(wù),利用MapReduce框架執(zhí)行這些任務(wù)以對(duì)HDFS上的海量數(shù)據(jù)進(jìn)行處理。它具備針對(duì)海量數(shù)據(jù)的高性能查詢和分析系統(tǒng)和類(lèi)SQL的查詢語(yǔ)言HiveQL。
Pig是一個(gè)基于Hadoop并運(yùn)用MapReduce和HDFS 實(shí)現(xiàn)大規(guī)模數(shù)據(jù)分析的平臺(tái)。它為海量數(shù)據(jù)的并行處理提供了操作以及編程實(shí)現(xiàn)的接口。
Mahout是一套具有可擴(kuò)充能力的機(jī)器學(xué)習(xí)類(lèi)庫(kù)。它提供機(jī)器學(xué)習(xí)框架的同時(shí),還實(shí)現(xiàn)了一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),可以幫助開(kāi)發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。通過(guò)和Apache Hadoop分布式框架相結(jié)合,Mahout可以有效地使用分布式系統(tǒng)來(lái)實(shí)現(xiàn)高性能計(jì)算。