123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

Shuffle核心概念、Shuffle調(diào)優(yōu)及故障排除

2021-03-23 14:42

三、 SortShuffle解析

SortShuffleManager的運(yùn)行機(jī)制主要分成兩種，一種是普通運(yùn)行機(jī)制，另一種是bypass運(yùn)行機(jī)制。當(dāng)shuffle read task的數(shù)量小于等于spark．shuffle．sort．bypassMergeThreshold參數(shù)的值時(shí)（默認(rèn)為200），就會(huì)啟用bypass機(jī)制。

1．普通運(yùn)行機(jī)制

在該模式下，數(shù)據(jù)會(huì)先寫(xiě)入一個(gè)內(nèi)存數(shù)據(jù)結(jié)構(gòu)中，此時(shí)根據(jù)不同的shuffle算子，可能選用不同的數(shù)據(jù)結(jié)構(gòu)。如果是reduceByKey這種聚合類的shuffle算子，那么會(huì)選用Map數(shù)據(jù)結(jié)構(gòu)，一邊通過(guò)Map進(jìn)行聚合，一邊寫(xiě)入內(nèi)存；如果是join這種普通的shuffle算子，那么會(huì)選用Array數(shù)據(jù)結(jié)構(gòu)，直接寫(xiě)入內(nèi)存。接著，每寫(xiě)一條數(shù)據(jù)進(jìn)入內(nèi)存數(shù)據(jù)結(jié)構(gòu)之后，就會(huì)判斷一下，是否達(dá)到了某個(gè)臨界閾值。如果達(dá)到臨界閾值的話，那么就會(huì)嘗試將內(nèi)存數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)溢寫(xiě)到磁盤(pán)，然后清空內(nèi)存數(shù)據(jù)結(jié)構(gòu)。

在溢寫(xiě)到磁盤(pán)文件之前，會(huì)先根據(jù)key對(duì)內(nèi)存數(shù)據(jù)結(jié)構(gòu)中已有的數(shù)據(jù)進(jìn)行排序。排序過(guò)后，會(huì)分批將數(shù)據(jù)寫(xiě)入磁盤(pán)文件。默認(rèn)的batch數(shù)量是10000條，也就是說(shuō)，排序好的數(shù)據(jù)，會(huì)以每批1萬(wàn)條數(shù)據(jù)的形式分批寫(xiě)入磁盤(pán)文件。寫(xiě)入磁盤(pán)文件是通過(guò)Java的BufferedOutputStream實(shí)現(xiàn)的。BufferedOutputStream是Java的緩沖輸出流，首先會(huì)將數(shù)據(jù)緩沖在內(nèi)存中，當(dāng)內(nèi)存緩沖滿溢之后再一次寫(xiě)入磁盤(pán)文件中，這樣可以減少磁盤(pán)IO次數(shù)，提升性能。

一個(gè)task將所有數(shù)據(jù)寫(xiě)入內(nèi)存數(shù)據(jù)結(jié)構(gòu)的過(guò)程中，會(huì)發(fā)生多次磁盤(pán)溢寫(xiě)操作，也就會(huì)產(chǎn)生多個(gè)臨時(shí)文件。最后會(huì)將之前所有的臨時(shí)磁盤(pán)文件都進(jìn)行合并，這就是merge過(guò)程，此時(shí)會(huì)將之前所有臨時(shí)磁盤(pán)文件中的數(shù)據(jù)讀取出來(lái)，然后依次寫(xiě)入最終的磁盤(pán)文件之中。此外，由于一個(gè)task就只對(duì)應(yīng)一個(gè)磁盤(pán)文件，也就意味著該task為下游stage的task準(zhǔn)備的數(shù)據(jù)都在這一個(gè)文件中，因此還會(huì)單獨(dú)寫(xiě)一份索引文件，其中標(biāo)識(shí)了下游各個(gè)task的數(shù)據(jù)在文件中的start offset與end offset。

SortShuffleManager由于有一個(gè)磁盤(pán)文件merge的過(guò)程，因此大大減少了文件數(shù)量。比如第一個(gè)stage有50個(gè)task，總共有10個(gè)Executor，每個(gè)Executor執(zhí)行5個(gè)task，而第二個(gè)stage有100個(gè)task。由于每個(gè)task最終只有一個(gè)磁盤(pán)文件，因此此時(shí)每個(gè)Executor上只有5個(gè)磁盤(pán)文件，所有Executor只有50個(gè)磁盤(pán)文件。

普通運(yùn)行機(jī)制的SortShuffleManager工作原理如下圖所示：

普通運(yùn)行機(jī)制的SortShuffleManager工作原理2． bypass運(yùn)行機(jī)制

bypass運(yùn)行機(jī)制的觸發(fā)條件如下：

shuffle map task數(shù)量小于spark．shuffle．sort．bypassMergeThreshold＝200參數(shù)的值。不是聚合類的shuffle算子。

此時(shí)，每個(gè)task會(huì)為每個(gè)下游task都創(chuàng)建一個(gè)臨時(shí)磁盤(pán)文件，并將數(shù)據(jù)按key進(jìn)行hash然后根據(jù)key的hash值，將key寫(xiě)入對(duì)應(yīng)的磁盤(pán)文件之中。當(dāng)然，寫(xiě)入磁盤(pán)文件時(shí)也是先寫(xiě)入內(nèi)存緩沖，緩沖寫(xiě)滿之后再溢寫(xiě)到磁盤(pán)文件的。最后，同樣會(huì)將所有臨時(shí)磁盤(pán)文件都合并成一個(gè)磁盤(pán)文件，并創(chuàng)建一個(gè)單獨(dú)的索引文件。

該過(guò)程的磁盤(pán)寫(xiě)機(jī)制其實(shí)跟未經(jīng)優(yōu)化的HashShuffleManager是一模一樣的，因?yàn)槎家獎(jiǎng)?chuàng)建數(shù)量驚人的磁盤(pán)文件，只是在最后會(huì)做一個(gè)磁盤(pán)文件的合并而已。因此少量的最終磁盤(pán)文件，也讓該機(jī)制相對(duì)未經(jīng)優(yōu)化的HashShuffleManager來(lái)說(shuō)，shuffle read的性能會(huì)更好。

而該機(jī)制與普通SortShuffleManager運(yùn)行機(jī)制的不同在于：第一，磁盤(pán)寫(xiě)機(jī)制不同；第二，不會(huì)進(jìn)行排序。也就是說(shuō)，啟用該機(jī)制的最大好處在于，shuffle write過(guò)程中，不需要進(jìn)行數(shù)據(jù)的排序操作，也就節(jié)省掉了這部分的性能開(kāi)銷。

bypass運(yùn)行機(jī)制的SortShuffleManager工作原理如下圖所示：

bypass運(yùn)行機(jī)制的SortShuffleManager工作原理

四、map和reduce端緩沖區(qū)大小

在Spark任務(wù)運(yùn)行過(guò)程中，如果shuffle的map端處理的數(shù)據(jù)量比較大，但是map端緩沖的大小是固定的，可能會(huì)出現(xiàn)map端緩沖數(shù)據(jù)頻繁spill溢寫(xiě)到磁盤(pán)文件中的情況，使得性能非常低下，通過(guò)調(diào)節(jié)map端緩沖的大小，可以避免頻繁的磁盤(pán)IO操作，進(jìn)而提升Spark任務(wù)的整體性能。

map端緩沖的默認(rèn)配置是32KB，如果每個(gè)task處理640KB的數(shù)據(jù)，那么會(huì)發(fā)生640／32 ＝ 20次溢寫(xiě)，如果每個(gè)task處理64000KB的數(shù)據(jù)，即會(huì)發(fā)生64000／32＝2000次溢寫(xiě)，這對(duì)于性能的影響是非常嚴(yán)重的。

map端緩沖的配置方法：

val conf ＝ new SparkConf（）
．set（＂spark．shuffle．file．buffer＂，＂64＂）

Spark Shuffle過(guò)程中，shuffle reduce task的buffer緩沖區(qū)大小決定了reduce task每次能夠緩沖的數(shù)據(jù)量，也就是每次能夠拉取的數(shù)據(jù)量，如果內(nèi)存資源較為充足，適當(dāng)增加拉取數(shù)據(jù)緩沖區(qū)的大小，可以減少拉取數(shù)據(jù)的次數(shù)，也就可以減少網(wǎng)絡(luò)傳輸?shù)拇螖?shù)，進(jìn)而提升性能。

reduce端數(shù)據(jù)拉取緩沖區(qū)的大小可以通過(guò)spark．reducer．maxSizeInFlight參數(shù)進(jìn)行設(shè)置，默認(rèn)為48MB。該參數(shù)的設(shè)置方法如下：

reduce端數(shù)據(jù)拉取緩沖區(qū)配置：

val conf ＝ new SparkConf（）
．set（＂spark．reducer．maxSizeInFlight＂，＂96＂）

五、reduce端重試次數(shù)和等待時(shí)間間隔

Spark Shuffle過(guò)程中，reduce task拉取屬于自己的數(shù)據(jù)時(shí)，如果因?yàn)榫W(wǎng)絡(luò)異常等原因?qū)е率?huì)自動(dòng)進(jìn)行重試。對(duì)于那些包含了特別耗時(shí)的shuffle操作的作業(yè)，建議增加重試最大次數(shù)（比如60次），以避免由于JVM的full gc或者網(wǎng)絡(luò)不穩(wěn)定等因素導(dǎo)致的數(shù)據(jù)拉取失敗。在實(shí)踐中發(fā)現(xiàn)，對(duì)于針對(duì)超大數(shù)據(jù)量（數(shù)十億～上百億）的shuffle過(guò)程，調(diào)節(jié)該參數(shù)可以大幅度提升穩(wěn)定性。

reduce端拉取數(shù)據(jù)重試次數(shù)可以通過(guò)spark．shuffle．io．maxRetries參數(shù)進(jìn)行設(shè)置，該參數(shù)就代表了可以重試的最大次數(shù)。如果在指定次數(shù)之內(nèi)拉取還是沒(méi)有成功，就可能會(huì)導(dǎo)致作業(yè)執(zhí)行失敗，默認(rèn)為3，該參數(shù)的設(shè)置方法如下：

reduce端拉取數(shù)據(jù)重試次數(shù)配置：

val conf ＝ new SparkConf（）
．set（＂spark．shuffle．io．maxRetries＂，＂6＂）

Spark Shuffle過(guò)程中，reduce task拉取屬于自己的數(shù)據(jù)時(shí)，如果因?yàn)榫W(wǎng)絡(luò)異常等原因?qū)е率?huì)自動(dòng)進(jìn)行重試，在一次失敗后，會(huì)等待一定的時(shí)間間隔再進(jìn)行重試，可以通過(guò)加大間隔時(shí)長(zhǎng)（比如60s），以增加shuffle操作的穩(wěn)定性。

reduce端拉取數(shù)據(jù)等待間隔可以通過(guò)spark．shuffle．io．retryWait參數(shù)進(jìn)行設(shè)置，默認(rèn)值為5s，該參數(shù)的設(shè)置方法如下：

reduce端拉取數(shù)據(jù)等待間隔配置：

val conf ＝ new SparkConf（）
．set（＂spark．shuffle．io．retryWait＂，＂60s＂）

<上一頁(yè) 1 2 3 下一頁(yè)>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网