大數(shù)據關鍵技術分析
Hadoop就是基于這樣的理念設計。Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,計算分析處理所涉及的框架,允許多臺設備一起工作,充分利用集群的威力進行高速運算和存儲,共同完成一項任務,而對于用戶來說這些設備是感知不到了,Hadoop技術屏蔽了底層的細節(jié)。
Hadoop最底層是HDFS,也就是Hadoop文件系統(tǒng),這個是分布式文件系統(tǒng),由多臺設備提供統(tǒng)一的存儲空間,而用戶感覺不到多臺設備,只看到一個統(tǒng)一的存儲空間,這也是云存儲技術的基礎。構建于HDFS的Hbase是天然的分布式數(shù)據庫;MapReduce提供了云計算框架,它的數(shù)據來源也是分布式的,可以是HDFS,也可以是Hbase。
HBase是分布式數(shù)據產品,多臺設備共同提供類似數(shù)據庫的服務,但是這種服務是分布式,由多臺設備來提供的,用戶也完全感覺不到設備的存在,只知道有一個數(shù)據庫給他們服務。這個也就是大數(shù)據庫的基礎。
在HBase之上,有MapReduce服務框架,也就是并行分析計算服務框架,可以支持各種分析應用并發(fā)的在多臺設備上執(zhí)行,完成一個共同的任務,原來1個人需要10天完成的任務,現(xiàn)在可以10個人1天完成,大大提升了數(shù)據分析的效率,這個也就是分布式計算的基礎。
Pig、Hive等是數(shù)據分析的引擎,提供快速的數(shù)據分析接口和能力。
Hadoop主要有以下幾個優(yōu)點:
一是高可靠性。Hadoop按位存儲和處理數(shù)據的能力值得人們信賴。
二是高擴展性。Hadoop是在可用的計算機集簇間分配數(shù)據并完成計算任務的,這些集簇可以方便地擴展到數(shù)以千計的節(jié)點中。
三是高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據,并保證各個節(jié)點的動態(tài)平衡,因此處理速度非常快。
四是高容錯性。Hadoop能夠自動保存數(shù)據的多個副本,并且能夠自動將失敗的任務重新分配。
五是低成本。與一體機、商用數(shù)據倉庫以及QlikView、Yonghong Z-Suite等數(shù)據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

責任編輯:售電衡衡
- 相關閱讀
- 碳交易
- 節(jié)能環(huán)保
- 電力法律
- 電力金融
- 綠色電力證書
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監(jiān)管與當量協(xié)同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發(fā)展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結構對于數(shù)據中心有什么影響?這個影響是好是壞呢!