国产精品色哟哟_男男激情3p互攻_色偷偷影院_和女同学厕所做了四次

當(dāng)前位置: 首頁 / 技術(shù)干貨 / 正文
好程序員大數(shù)據(jù)培訓(xùn)分享MapReduce理解

2020-11-26

大數(shù)據(jù)培訓(xùn) 好程序員

  好程序員大數(shù)據(jù)培訓(xùn)分享MapReduce理解,本篇文章好程序員大數(shù)據(jù)培訓(xùn)小編就給大家分享一下大數(shù)據(jù)MapReduce理解。

 

  為什么需要MapReduce?因為MapReduce可以“分而治之”,將計算大數(shù)據(jù)的復(fù)雜任務(wù)分解成若干簡單小任務(wù)。“簡單”的意思是:計算規(guī)模變小、就近節(jié)點計算數(shù)據(jù)、并行任務(wù)。

好程序員

  一句話版本:

  輸入文件 ->map任務(wù)】split --> map --> partition --> sort --> combine(寫內(nèi)存緩沖區(qū)) ~~ spill(獨立線程寫磁盤) --> merge --> map輸出結(jié)果 ~~~ reduce任務(wù)】copy --> merge -->reduce --> 輸出文件

  Mmap任務(wù)開始并處理分配到的多個split數(shù)據(jù)。

  Partition

  作用:將map階段的輸出分配給相應(yīng)的reducerpartition數(shù) == reducer數(shù)

  默認(rèn)是HashPartitioner。之后將輸出數(shù)據(jù)寫入內(nèi)存緩沖區(qū)memory buff

  spill:

  當(dāng)memory buff的數(shù)據(jù)到達(dá)一定閾值時,默認(rèn)80%,將出發(fā)溢寫spill,先鎖住這80%的內(nèi)存,將這部分?jǐn)?shù)據(jù)寫進(jìn)本地磁盤,保存為一個臨時文件。此階段由單獨線程控制,與寫memory buff線程同步進(jìn)行。

  sort & combine

  spill寫文件之前,要對80%的數(shù)據(jù)(格式)進(jìn)行排序,先partitionkey,保證每個分區(qū)內(nèi)key有序,如果job設(shè)置了combine,則再進(jìn)行combine操作,將 這樣的數(shù)據(jù)合并成,最終輸出一個spill文件。

  多個spill文件通過多路歸并排序,再合并成一個文件,這是map階段的最終輸出。同時還有一個索引文件(file.out.index),記錄每個partition的起始位置、長度。

  reduce階段:

  copy:多線程并發(fā)從各個mapper上拉屬于本reducer的數(shù)據(jù)塊(根據(jù)partition),獲取后存入內(nèi)存緩沖區(qū),使用率達(dá)到閾值時寫入磁盤。

  merge:一直啟動,由于不同map的輸出文件是沒有sort的,因此在寫入磁盤前需要merge,知道沒有新的map端數(shù)據(jù)寫入。最后啟動merge對所有磁盤中的數(shù)據(jù)歸并排序,形成一個最終文件作為reducer輸入文件,至此shuffle階段結(jié)束。

  reduce:和combine類似,都是將相同的key合并計算,最終結(jié)果寫到HDFS上。

  好了,對于大數(shù)據(jù)MapReduce的理解就先簡單說這些,學(xué)習(xí)大數(shù)據(jù)不是一朝一夕的事情,對大數(shù)據(jù)分析感興趣的小伙伴小編建議你選擇專業(yè)的大數(shù)據(jù)培訓(xùn)機構(gòu)學(xué)習(xí),只有跟著專業(yè)的老師學(xué)才能保證你學(xué)到專業(yè)實用的技能。

 

 

好程序員公眾號

  • · 剖析行業(yè)發(fā)展趨勢
  • · 匯聚企業(yè)項目源碼

好程序員開班動態(tài)

More+
  • HTML5大前端 <高端班>

    開班時間:2021-04-12(深圳)

    開班盛況

    開班時間:2021-05-17(北京)

    開班盛況
  • 大數(shù)據(jù)+人工智能 <高端班>

    開班時間:2021-03-22(杭州)

    開班盛況

    開班時間:2021-04-26(北京)

    開班盛況
  • JavaEE分布式開發(fā) <高端班>

    開班時間:2021-05-10(北京)

    開班盛況

    開班時間:2021-02-22(北京)

    開班盛況
  • Python人工智能+數(shù)據(jù)分析 <高端班>

    開班時間:2021-07-12(北京)

    預(yù)約報名

    開班時間:2020-09-21(上海)

    開班盛況
  • 云計算開發(fā) <高端班>

    開班時間:2021-07-12(北京)

    預(yù)約報名

    開班時間:2019-07-22(北京)

    開班盛況
IT培訓(xùn)IT培訓(xùn)
在線咨詢
IT培訓(xùn)IT培訓(xùn)
試聽
IT培訓(xùn)IT培訓(xùn)
入學(xué)教程
IT培訓(xùn)IT培訓(xùn)
立即報名
IT培訓(xùn)

Copyright 2011-2023 北京千鋒互聯(lián)科技有限公司 .All Right 京ICP備12003911號-5 京公網(wǎng)安備 11010802035720號