3D Xpoint將掀起人工智能領(lǐng)域一場革命?美光:我行
3D XPoint之美
3D XPoint連接了NAND存儲器(SSD存儲器)和DRAM存儲器(RAM)之間的鴻溝。正如SumitSadana所言:“3D XPoint是一種持久性存儲器,速度不如DRAM快,但明顯快于NAND,它與DRAM不同,沒有電也能保存狀態(tài)!
在原始讀寫速度上,3D XPoint與常規(guī)NAND內(nèi)存更接近,幾乎相同。在廣受歡迎的YouTube硬件評論頻道Linus Tech Tips執(zhí)行的測試中,使用了3D XPoint技術(shù)的英特爾Optane硬盤的讀寫速度大致為2GB/s,與三星最新的NAND SSD相同。 相比之下,RAMdisk(從DRAM模塊創(chuàng)建的虛擬磁盤)的讀取或?qū)懭胨俣瓤梢猿^8GB/s。然而,3D XPoint的表現(xiàn)更像DRAM,尤其是在延遲上。
延遲是衡量給定存儲介質(zhì)響應(yīng)請求的速度的一個指標(biāo)。同樣是CPU請求一張貓的照片,NAND和3D XPoint都能夠以大約2GB/s的速度向CPU提供該圖片,但3D XPoint模塊的延遲(在CPU時間尺度上)更低,即它會比NAND模塊更早開始傳輸信息。3D XPoint的響應(yīng)時間接近DRAM的響應(yīng)時間。
我們可以從另外一個角度思考這之間的差異。假如您想要從存儲器中讀取60 GB的連續(xù)數(shù)據(jù),那么,NAND和3D XPoint在原始速度方面的性能大致相當(dāng)。 但是,如果您想從存儲器中隨機(jī)執(zhí)行120,000個單獨(dú)的讀取請求,比如120,000張大小為500 KB的貓圖片,那么,3D XPoint模塊完成處理這120,000個請求的速度遠(yuǎn)快于NAND模塊。
3D XPoint的另一個顯著優(yōu)勢是其耐用性,F(xiàn)代NAND在失效之前可以寫入數(shù)十萬次至數(shù)百萬次,但3D XPoint的耐久性與DRAM的耐久性相當(dāng),它的性能不會因為重復(fù)寫入而降低。
3D XPoint實現(xiàn)
現(xiàn)在我們已經(jīng)知道了機(jī)器學(xué)習(xí)是如何工作的,也了解了3D XPoint的性能特征。現(xiàn)在,讓我們看看3D XPoint怎么被非常有效地使用,以加速甚至是革命性地改變機(jī)器學(xué)習(xí)。不過,首先讓我們看看Sumit Sadana的一段講話,他暗示了美光在3D XPoint上可能正在做的工作:
“在云公司內(nèi)部,一個眾所周知的事情是,處理器需要花費(fèi)大量的時間等待數(shù)據(jù)。隨著這些新興處理器內(nèi)核數(shù)量在過去幾年內(nèi)的大幅增加,相對來講這些處理器的附屬內(nèi)存容量并沒有增加太多,這就意味著每個內(nèi)核可以使用的內(nèi)存帶寬容量是實際下降的。
這就是為什么使用3D XPoint擴(kuò)展這些進(jìn)程的可尋址內(nèi)存空間如此重要的原因,因為它實際上可以給你帶來更大的回報和更高的性能,而不再是只能升級處理器到下一代版本上或者使用更快速的處理器。未來的處理器將允許更多的內(nèi)存連接到處理器上,這也將成為提高服務(wù)器平均能力的另一個驅(qū)動因素!
上面這段話中的一個關(guān)鍵詞匯是“可尋址內(nèi)存”,它到底意味著什么?你看,CPU并不能直接尋址計算機(jī)中的所有內(nèi)存。你可以直接尋址DRAM,但是不能直接尋址硬盤或者SSD硬盤。
請注意,上圖中的CPU可以直接訪問DRAM模塊中存儲的任何數(shù)據(jù),但無法對SSD硬盤執(zhí)行相同的操作。為了訪問SSD上的數(shù)據(jù),CPU必須與存儲控制器通信,要求存儲控制器從硬盤驅(qū)動器獲取一堆數(shù)據(jù)并將其放入RAM中。然后,CPU從RAM獲取所請求的數(shù)據(jù),這樣就實現(xiàn)了對SSD硬盤數(shù)據(jù)的訪問。寫入SSD的過程與讀取過程相反,CPU必須首先將一些數(shù)據(jù)寫入RAM,然后要求存儲控制器從RAM中獲取該數(shù)據(jù)并將其寫回到SSD中。正如你所看到的那樣,這里面涉及到很大的性能開銷。
相比之下,您可以在圖的右側(cè)看到訪問DRAM內(nèi)存和3D XPoint內(nèi)存的方式。在該模型中,CPU可以直接訪問DRAM和3D XPoint存儲器中的內(nèi)存頁面。
Linus Tech Tips就這個概念做了一個視頻測試,他們使用了英特爾的Optane硬盤取代了測試機(jī)器上的存儲器。結(jié)果顯示,即使是在當(dāng)前的計算機(jī)架構(gòu)中,沒有使用特殊的操作系統(tǒng)級的配置,通過M2接口連接,使用3D XPoint內(nèi)存的Optane硬盤也足夠快,可以充分降低CPU訪問數(shù)據(jù)的延遲。
為了讓該系統(tǒng)實現(xiàn)最高性能,美光必須和操作系統(tǒng)(Linux和Windows)開發(fā)人員共同開發(fā)一種基本全新的內(nèi)存結(jié)構(gòu)和訪問機(jī)制。在一個計算機(jī)系統(tǒng)中,你可能有1級緩存、2級緩存,有時甚至需要3級緩存,然后是我們都知道的RAM或DRAM內(nèi)存。美光需要開發(fā)可以實施另外一層基于3D XPoint技術(shù)的內(nèi)存介質(zhì)的驅(qū)動程序,可能比DRAM稍慢一些,但是比DRAM更耐用,也更便宜。
相對于系統(tǒng)其余部分,這種設(shè)計調(diào)整可以相對透明地實現(xiàn)。系統(tǒng)會看到全部隨機(jī)存取存儲器,但是內(nèi)核會做出區(qū)分,將經(jīng)常運(yùn)行的應(yīng)用在DRAM中分配內(nèi)存頁面,同時為不太經(jīng)常使用但當(dāng)前仍然在運(yùn)行的應(yīng)用分配3D XPoint頁面。
這種方式對機(jī)器學(xué)習(xí)模型特別有用,它允許服務(wù)器將整個數(shù)據(jù)集加載到可尋址內(nèi)存中,然后CPU在可尋址的內(nèi)存空間上,在訓(xùn)練集上開始前向傳播和后向傳播算法的訓(xùn)練。
更具體地說,如果您參考上文AI部分中的神經(jīng)網(wǎng)絡(luò)圖,理想的實現(xiàn)會將以X1,X2 ...等表示的數(shù)據(jù)集加載到3D XPoint存儲器中,同時將模型的主要部分,即我們在圖中隱藏的第2層和第3層加載到主DRAM中。模型的權(quán)重通常由theta,θ表示,它們將被存儲在DRAM中,并鏡像到3D XPoint進(jìn)行備份,以應(yīng)對硬件或軟件崩潰的情形。
CPU可以直接訪問大量快速和低延遲的內(nèi)存,將使得CPU大部分時間處于滿載狀態(tài)。這意味著更好的投資回報,更短的模型培訓(xùn)過程,以及機(jī)器學(xué)習(xí)任務(wù)的總體重大改進(jìn)。
結(jié)論
美光在最近這次年度會議上展示了公司良好的執(zhí)行力,他們火力全開,而且如果他們能夠以上文所討論的那樣進(jìn)行3D XPoint技術(shù)的部署,他們的股票可以獲得更高的市盈率。而且,它也會擺脫商品級芯片供應(yīng)商“周期上升,周期下降”的老討套路。如果他們能夠提供非易失性的可尋址內(nèi)存,并與Linux和Windows等操作系統(tǒng)完美集成,他們就能夠創(chuàng)建一種全新的存儲器類型,并滿足機(jī)器學(xué)習(xí)日益增長的需求。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?