>
學(xué)校機構(gòu) >
杭州博學(xué)信息技術(shù)服務(wù)有限公司 >
學(xué)習(xí)資訊>
MapR意欲將SL on Hadoop推向新的高度
MapR意欲將SL on Hadoop推向新的高度
167 2017-04-25
為了徹底擺脫管理規(guī)劃的束縛并告別在內(nèi)容探索前需要對輸入數(shù)據(jù)進行的長時間ETL(即提娶轉(zhuǎn)換與加載)任務(wù),MapR在其Hadoop發(fā)行版中引入了ApacheDrill分布式ANSISQL查詢引擎。
為了幫助用戶告別一系列強度極高的數(shù)據(jù)工程處理任務(wù),MapR日前對其Hadoop發(fā)行版進行了更新、核心內(nèi)容在于引入ApacheDrill0.5。
Drill是一款開源分布式ANSISQL查詢引擎,旨在進行自助式數(shù)據(jù)探索——它屬于谷歌Dremel系統(tǒng)的開源版本,搜索巨頭將其作為BigQuery服務(wù)的核心組件之一實現(xiàn)內(nèi)部大型數(shù)據(jù)集的查詢工作。ApacheDrill的既定目標是擁有擴展至上萬臺甚至更多服務(wù)器的強大能力,同時保證用戶可以在數(shù)秒之內(nèi)處理PB級別數(shù)據(jù)以及上萬億條記錄信息。
Drill查詢引擎擁有以下各項能力:
=在不改變原生格式的前提下進行數(shù)據(jù)探索(包括Parquet、JSON文件以及HBase表),而且無需數(shù)據(jù)庫管理員的介入。
對不斷變化且來自MongoDB等NoSQL數(shù)據(jù)存儲體系以及在線RESTAPI的半結(jié)構(gòu)化/嵌套式數(shù)據(jù)進行分析。
創(chuàng)建出能夠同時包含多種不同Hadoop數(shù)據(jù)源的查詢機制,例如文件、HBase表以及Hive表。
重復(fù)使用現(xiàn)有SQL技術(shù)集、商務(wù)智能工具以及ApacheHive部署方案。
“我們對此感到非常興奮,因為它真正開啟了SQL-on-Hadoop的發(fā)展新時代,”MapR公司首席營銷官JackNorris表示?!捌潢P(guān)注重點在于為Hadoop帶來自助式數(shù)據(jù)探索能力,且完全無需IT部門的介入。”
這是因為Drill能夠為用戶帶來讓SQL查詢直接面向多種數(shù)據(jù)格式加以運行的能力,它可以被用于對剛剛傳輸?shù)降膶崟r數(shù)據(jù)進行探索、而不再需要相關(guān)技術(shù)人員花費數(shù)周時間籌備管理規(guī)劃或者設(shè)置ETL任務(wù)。通過這種方式,它成功地幫助使用者在處理多種數(shù)據(jù)源時擁有了即時性自助式數(shù)據(jù)探索方案。
“企業(yè)用戶希望能夠?qū)Ρ4嬖贖adoop以及NoSQL數(shù)據(jù)庫當中的數(shù)據(jù)加以訪問,并利用現(xiàn)有SQL分析技能將這種訪問能力拓展到更為廣泛的實際使用者群體當中,”451研究機構(gòu)數(shù)據(jù)平臺與分析研究主管MattAslett指出?!癆pacheDrill有能力幫助用戶訪問Hadoop當中存儲的數(shù)據(jù),而且完全無需制定任何集中式規(guī)劃。除此之外,包含嵌套與重復(fù)域等復(fù)雜數(shù)據(jù)結(jié)構(gòu)的NoSQL數(shù)據(jù)集也可以得到直接使用,這在傳統(tǒng)SQL-on-Hadoop方案當中是完全不可想象的?!?/p>
“其它任何一款SQL-on-Hadoop解決方案,無論是Hive、Tez或者其它什么產(chǎn)品,在運行當中都需要依賴于固定的規(guī)劃與模式,”Norris同時補充稱?!盁o論大家著眼于MapReduce、Hive或者其它任何一種SQL-on-Hadoop解決方案,都需要某種中間人機制負責(zé)處理建模、數(shù)據(jù)轉(zhuǎn)換以及分析支持等任務(wù)。Drill的亮點則正在于此——可以在無需等待的前提下實現(xiàn)數(shù)據(jù)探索,而這無疑會讓用戶擁有令人振奮的速度與敏捷性優(yōu)勢?!?/p>
MapR公司將Drill打包塞進了MapR4.0.1版本,此版本日前剛剛閃亮登常這款Hadoop發(fā)行版最新版本對自身面向各類用例的實時處理能力進行了顯著擴展,具體用例類型包括業(yè)務(wù)應(yīng)用程序、交互式查詢以及數(shù)據(jù)流處理等。
新版本當中還包含多套批處理框架,具體有MapReduce1.x與2.x(基于YARN)以及Spark(0.9與1.0.2版本)。它還支持五項SQL-on-Hadoop技術(shù)方案:Hive(0.11、0.12與0.13版本)、Drill(0.5版本)、SparkSQL(1.0.2版本)、Impala(1.3.1版本)并且擁有與惠普Vertica相集成的認證資質(zhì)。它新增了面向HBase(0.94.21與0.98.4版本)的支持能力以及MapR-DBNoSQL技術(shù)。此外,最新的MapR還擁有三項機器學(xué)習(xí)與圖形庫方案,分別為Mahout(0.8與0.9版本)、MLLib(0.9與1.0.2版本)外加GraphX。
咨詢400-6677-656
咨詢QQ:
掃一掃
獲取更多福利
獵學(xué)網(wǎng)企業(yè)微信
獵學(xué)網(wǎng)訂閱號
獵學(xué)網(wǎng)服務(wù)號