初識MapReduce的應用場景(附JAVA和Python代碼)
從這篇文章開始,我會開始系統性地輸出在大數據踩坑過程中的積累,后面會涉及到實戰(zhàn)項目的具體操作,目前的規(guī)劃是按照系列來更新,力爭做到一個系列在5篇文章之內總結出最核心的干貨,如果是涉及到理論方面的文章,會以畫圖的方式來講解,如果是涉及到操作方面,會以實際的代碼來演示。
這篇是MapReduce系列的第一篇,初識MapReduce的應用場景,在文章后面會有關于代碼的演示。
Hadoop作為Apache旗下的一個以Java語言實現的分布式計算開源框架,其由兩個部分組成,一個是分布式的文件系統HDFS,另一個是批處理計算框架MapReduce。這篇文章作為MapReduce系列的第一篇文章,會從MapReduce的產生背景、框架的計算流程、應用場景和演示Demo來講解,主要是讓大家對MapReduce的這個批計算框架有個初步的了解及簡單的部署和使用。
目錄
MapReduce的產生背景
MapReduce的計算流程
MapReduce的框架架構
MapReduce的生命周期
應用場景
演示Demo
MapReduce的產生背景
Google 在2004年的時候在 MapReduce: Simplified Data Processing on Large Clusters 這篇論文中提出了MapReduce 的功能特性和設計理念,設計MapReduce 的出發(fā)點就是為了解決如何把大問題分解成獨立的小問題,再并行解決。例如,MapReduce的經典使用場景之一就是對一篇長文進行詞頻統計,統計過程就是先把文章分為一句一句,然后進行分割,最后進行詞的數量統計。
MapReduce的架構圖
MapReduce的架構圖
這里的Client和TaskTracker我都使用一個來簡化了,在實際中是會有很個Client和TaskTracker的。
我們來講解下不同的組件作用
Client
Client的含義是指用戶使用MapReduce程序通過Client來提交任務到Job Tracker上,同時用戶也可以使用Client來查看一些作業(yè)的運行狀態(tài)。
Job Tracker
這個負責的是資源監(jiān)控和作業(yè)調度。JobTracker會監(jiān)控著TaskTracker和作業(yè)的健康狀況,會把失敗的任務轉移到其他節(jié)點上,同時也監(jiān)控著任務的執(zhí)行進度、資源使用量等情況,會把這些消息通知任務調度器,而調度器會在資源空閑的時候選擇合適的任務來使用這些資源。
任務調度器是一個可插拔的模塊,用戶可以根據自己的需要來設計相對應的調度器。
TaskTracker
TaskTracker會周期性地通過Hearbeat來向Job Tracker匯報自己的資源使用情況和任務的運行進度。會接受來自于JobTaskcker的指令來執(zhí)行操作(例如啟動新任務、殺死任務之類的)。
在TaskTracker中通過的是slot來進行等量劃分一個節(jié)點上資源量,只用Task獲得slot的時候才有機會去運行。調度器的作用就是進行將空閑的slot分配給Task使用,可以配置slot的數量來進行限定Task上的并發(fā)度。
Task
Task分為Map Task和Reduce Task,在MapReduce中的 split 就是一個 Map Task,split 的大小可以設置的,由 mapred.max.spilt.size 參數來設置,默認是 Hadoop中的block的大小,在Hadoop 2.x中默認是128M,在Hadoop 1.x中默認是64M。
在Task中的設置可以這么設置,一般來講,會把一個文件設置為一個split,如果是小文件,那么就會存在很多的Map Task,這是特別浪費資源的,如果split切割的數據塊的量大,那么會導致跨節(jié)點去獲取數據,這樣也是消耗很多的系統資源的。
MapReduce的生命周期
MapReduce的生命周期
一共分為5個步驟:
作業(yè)的提交和初始化
由用戶提交作業(yè)之前,需要先把文件上傳到HDFS上,JobClient使用upload來加載關于打包好的jar包,JobClient會RPC創(chuàng)建一個JobInProcess來進行管理任務,并且創(chuàng)建一個TaskProcess來管理控制關于每一個Task。
JobTracker調度任務
JobTracker會調度和管理任務,一發(fā)現有空閑資源,會按照一個策略選擇一個合適的任務來使用該資源。
任務調度器有兩個點:一個是保證作業(yè)的順利運行,如果有失敗的任務時,會轉移計算任務,另一個是如果某一個Task的計算結果落后于同一個Task的計算結果時,會啟動另一個Task來做計算,最后去計算結果最塊的那個。
任務運行環(huán)境
TaskTracker會為每一個Task來準備一個獨立的JVM從而避免不同的Task在運行過程中的一些影響,同時也使用了操作系統來實現資源隔離防止Task濫用資源。
執(zhí)行任務
每個Task的任務進度通過RPC來匯報給TaskTracker,再由TaskTracker匯報給JobTracker。
任務結束,寫入輸出的文件到HDFS中。
MapReduce 的計算流程
先來看一張圖,系統地了解下 MapReduce 的運算流程。
MapReduce的運算流程
為了方便大家理解,重新畫了一張新的圖,演示的是關于如何進行把一個長句進行分割,最后進行詞頻的統計(已忽略掉標點符號)。
簡單的實操例子
整個過程就是先讀取文件,接著進行split切割,變成一個一個的詞,然后進行 map task 任務,排列出所有詞的統計量,接著 sorting 排序,按照字典序來排,接著就是進行 reduce task,進行了詞頻的匯總,最后一步就是輸出為文件。例如圖中的 spacedong 就出現了兩次。
其中對應著的是 Hadoop Mapreduce 對外提供的五個可編程組件,分別是InputFormat、Mapper、Partitioner、Reduce和OutputFormat,后續(xù)的文章會詳細講解這幾個組件。
用一句話簡單地總結就是,Mapreduce的運算過程就是進行拆解-排序-匯總,解決的就是統計的問題,使用的思想就是分治的思想。
MapReduce的應用場景
MapReduce 的產生是為了把某些大的問題分解成小的問題,然后解決小問題后,大問題也就解決了。那么一般有什么樣的場景會運用到這個呢?那可多了去,簡單地列舉幾個經典的場景。
計算URL的訪問頻率
搜索引擎的使用中,會遇到大量的URL的訪問,所以,可以使用 MapReduce 來進行統計,得出(URL,次數)結果,在后續(xù)的分析中可以使用。
倒排索引
Map 函數去分析文件格式是(詞,文檔號)的列表,Reduce 函數就分析這個(詞,文檔號),排序所有的文檔號,輸出(詞,list(文檔號)),這個就可以形成一個簡單的倒排索引,是一種簡單的算法跟蹤詞在文檔中的位置。
Top K 問題
在各種的文檔分析,或者是不同的場景中,經常會遇到關于 Top K 的問題,例如輸出這篇文章的出現前5個最多的詞匯。這個時候也可以使用 MapReduce來進行統計。
演示Demo
今天的代碼演示從Python和Java兩個版本的演示,Python版本的話便是不使用封裝的包,Java版本的話則是使用了Hadoop的封裝包。接下來便進行演示一個MapReduce的簡單使用,如何進行詞匯統計。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?