久久国产第区二区三区日韩精品,人妻无码高清在线播放,免费视频二区

當前位置： OFweek 人工智能網 > 其他 > 正文

初識MapReduce的應用場景（附JAVA和Python代碼）

2019-03-01 08:34

Python進階學習交流

關注

從這篇文章開始，我會開始系統性地輸出在大數據踩坑過程中的積累，后面會涉及到實戰(zhàn)項目的具體操作，目前的規(guī)劃是按照系列來更新，力爭做到一個系列在5篇文章之內總結出最核心的干貨，如果是涉及到理論方面的文章，會以畫圖的方式來講解，如果是涉及到操作方面，會以實際的代碼來演示。

這篇是MapReduce系列的第一篇，初識MapReduce的應用場景，在文章后面會有關于代碼的演示。

Hadoop作為Apache旗下的一個以Java語言實現的分布式計算開源框架，其由兩個部分組成，一個是分布式的文件系統HDFS，另一個是批處理計算框架MapReduce。這篇文章作為MapReduce系列的第一篇文章，會從MapReduce的產生背景、框架的計算流程、應用場景和演示Demo來講解，主要是讓大家對MapReduce的這個批計算框架有個初步的了解及簡單的部署和使用。

MapReduce的產生背景

MapReduce的計算流程

MapReduce的框架架構

MapReduce的生命周期

應用場景

演示Demo

MapReduce的產生背景

Google 在2004年的時候在 MapReduce： Simplified Data Processing on Large Clusters 這篇論文中提出了MapReduce 的功能特性和設計理念，設計MapReduce 的出發(fā)點就是為了解決如何把大問題分解成獨立的小問題，再并行解決。例如，MapReduce的經典使用場景之一就是對一篇長文進行詞頻統計，統計過程就是先把文章分為一句一句，然后進行分割，最后進行詞的數量統計。

MapReduce的架構圖

MapReduce的架構圖

這里的Client和TaskTracker我都使用一個來簡化了，在實際中是會有很個Client和TaskTracker的。

我們來講解下不同的組件作用

Client

Client的含義是指用戶使用MapReduce程序通過Client來提交任務到Job Tracker上，同時用戶也可以使用Client來查看一些作業(yè)的運行狀態(tài)。

Job Tracker

這個負責的是資源監(jiān)控和作業(yè)調度。JobTracker會監(jiān)控著TaskTracker和作業(yè)的健康狀況，會把失敗的任務轉移到其他節(jié)點上，同時也監(jiān)控著任務的執(zhí)行進度、資源使用量等情況，會把這些消息通知任務調度器，而調度器會在資源空閑的時候選擇合適的任務來使用這些資源。

任務調度器是一個可插拔的模塊，用戶可以根據自己的需要來設計相對應的調度器。

TaskTracker

TaskTracker會周期性地通過Hearbeat來向Job Tracker匯報自己的資源使用情況和任務的運行進度。會接受來自于JobTaskcker的指令來執(zhí)行操作（例如啟動新任務、殺死任務之類的）。

在TaskTracker中通過的是slot來進行等量劃分一個節(jié)點上資源量，只用Task獲得slot的時候才有機會去運行。調度器的作用就是進行將空閑的slot分配給Task使用，可以配置slot的數量來進行限定Task上的并發(fā)度。

Task

Task分為Map Task和Reduce Task，在MapReduce中的 split 就是一個 Map Task，split 的大小可以設置的，由 mapred．max．spilt．size 參數來設置，默認是 Hadoop中的block的大小，在Hadoop 2．x中默認是128M，在Hadoop 1．x中默認是64M。

在Task中的設置可以這么設置，一般來講，會把一個文件設置為一個split，如果是小文件，那么就會存在很多的Map Task，這是特別浪費資源的，如果split切割的數據塊的量大，那么會導致跨節(jié)點去獲取數據，這樣也是消耗很多的系統資源的。

MapReduce的生命周期

MapReduce的生命周期