訂閱
糾錯(cuò)
加入自媒體

存儲(chǔ),也是“一等公民”

圖片

先進(jìn)存力,已是數(shù)智化轉(zhuǎn)型的核心基建。

文|游勇

編|周路平

人工智能蓬勃發(fā)展和數(shù)智化轉(zhuǎn)型的當(dāng)下,存儲(chǔ)的價(jià)值愈發(fā)凸顯。

隨著數(shù)據(jù)量的急劇膨脹,以及大模型訓(xùn)推和業(yè)務(wù)實(shí)時(shí)分析的需要,傳統(tǒng)的數(shù)據(jù)中心越來(lái)越力不從心,存儲(chǔ)系統(tǒng)亟需向更高吞吐量,更低時(shí)延,更高效數(shù)據(jù)管理的先進(jìn)數(shù)據(jù)基礎(chǔ)設(shè)施演變。

IDC則在《構(gòu)建面向智能化時(shí)代的先進(jìn)存力中心》白皮書中提到,要“適度超前建設(shè)先進(jìn)存力中心”。

01

AI時(shí)代下,存儲(chǔ)也是一等公民

39.5ZB,這是IDC預(yù)測(cè)的中國(guó)在2024年的數(shù)據(jù)總生成量。四年后,這個(gè)數(shù)字將達(dá)到97.1ZB。

或許你對(duì)存儲(chǔ)容量單位沒(méi)有概念,如果拿當(dāng)下內(nèi)存容量最大的手機(jī)來(lái)對(duì)比,1ZB就需要10億臺(tái)1TB內(nèi)存容量的手機(jī)才能放得下。

數(shù)據(jù)正處于大爆炸階段。從互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)到物聯(lián)網(wǎng)、人工智能,每天產(chǎn)生的數(shù)據(jù)量越來(lái)越大,而且種類越來(lái)越豐富,不僅有結(jié)構(gòu)化數(shù)據(jù),還有大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

圖片

海量的數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)提出了更高的容量要求。數(shù)智前線在統(tǒng)計(jì)政企招投標(biāo)采購(gòu)時(shí)發(fā)現(xiàn),今年前8個(gè)月已經(jīng)出現(xiàn)了數(shù)百個(gè)與存儲(chǔ)相關(guān)的項(xiàng)目,主要涉及金融、制造、能源、運(yùn)營(yíng)商、交通等行業(yè)。在大模型熱的背景下,存儲(chǔ)市場(chǎng)也分外活躍。

另外,大量數(shù)據(jù)只管存,很少被真正用起來(lái),價(jià)值挖掘不夠。但現(xiàn)在無(wú)論是AI的需求,還是業(yè)務(wù)場(chǎng)景的需要,使得高頻率、高速率、大帶寬的實(shí)時(shí)讀寫需求猛增,存儲(chǔ)系統(tǒng)也需要具備大帶寬、低時(shí)延、高并發(fā)的存儲(chǔ)性能,以支持實(shí)時(shí)數(shù)據(jù)的高速讀寫和分析處理。

“AI的興起是對(duì)數(shù)據(jù)價(jià)值的再發(fā)現(xiàn)。”曙光存儲(chǔ)副總裁郭照斌說(shuō),以前存儲(chǔ)是被動(dòng)響應(yīng)上層需求,但在數(shù)智化時(shí)代下,數(shù)據(jù)的價(jià)值被提到了新的高度,“以前大家覺(jué)得死的數(shù)據(jù),現(xiàn)在經(jīng)過(guò)反復(fù)的迭代訓(xùn)練,它能產(chǎn)生智能化的東西,它能產(chǎn)生新的數(shù)據(jù),這個(gè)時(shí)候大家才重視起來(lái)。”

過(guò)去,業(yè)內(nèi)存在“重算力輕存力”的現(xiàn)象,建設(shè)了大量以GPU為主的智能算力基礎(chǔ)設(shè)施,而忽視了對(duì)先進(jìn)存力的建設(shè)。去年初,英偉達(dá)發(fā)布過(guò)一個(gè)AI數(shù)據(jù)中心購(gòu)置預(yù)算的構(gòu)成,其中存儲(chǔ)僅占20%。

但越來(lái)越多人發(fā)現(xiàn),存儲(chǔ)的性能深刻影響了算力性能的發(fā)揮。

尤其在大模型的訓(xùn)練過(guò)程中,光解決算力和數(shù)據(jù)問(wèn)題遠(yuǎn)遠(yuǎn)不夠,很多企業(yè)在采購(gòu)了不少GPU后,發(fā)現(xiàn)往往很難滿負(fù)荷運(yùn)轉(zhuǎn),網(wǎng)絡(luò)和存儲(chǔ)經(jīng)常遇到瓶頸,出現(xiàn)等待和浪費(fèi),拖累整個(gè)模型的訓(xùn)練效率。

由于傳統(tǒng)業(yè)務(wù)對(duì)存儲(chǔ)的性能基本在百GB級(jí),而大模型的訓(xùn)練,對(duì)存儲(chǔ)的需求激增到TB級(jí)。無(wú)論是海量訓(xùn)練數(shù)據(jù)加載、PB級(jí)斷點(diǎn)續(xù)訓(xùn),還是高并發(fā)推理問(wèn)答,存儲(chǔ)性能直接決定了整個(gè)訓(xùn)練推理過(guò)程中的GPU利用率。特別是在萬(wàn)卡集群下,較差的存儲(chǔ)性能嚴(yán)重增加GPU閑置時(shí)間,造成資源的極大浪費(fèi)。

有報(bào)告曾提到,在同等GPU算力規(guī)模下,存儲(chǔ)性能的高低可能造成模型訓(xùn)練周期數(shù)倍的差異。

而且,相比于傳統(tǒng)AI的需求,大模型的場(chǎng)景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓(xùn)練周期長(zhǎng)等特點(diǎn)。相對(duì)應(yīng)的,它對(duì)存力提出了更高的要求,更加強(qiáng)調(diào)高吞吐、高IOPS、高帶寬、低延時(shí)等極致性能。

存儲(chǔ)系統(tǒng)正逐漸演進(jìn)到更高吞吐量,更低時(shí)延,更高效的數(shù)據(jù)平臺(tái)。而傳統(tǒng)的數(shù)據(jù)中心面臨升級(jí),新形態(tài)之一就是建設(shè)存算協(xié)同的先進(jìn)存力中心。

曙光存儲(chǔ)副總裁郭照斌說(shuō),數(shù)智化時(shí)代,存儲(chǔ)不再是單純的被動(dòng)響應(yīng),它會(huì)隨著算力的發(fā)展協(xié)同往前發(fā)展。

中科院院士錢德沛更是直言:存儲(chǔ)也是一等公民。換句話說(shuō),在AI時(shí)代,沒(méi)有先進(jìn)存力,算力也無(wú)法充分發(fā)揮,兩者已經(jīng)是相輔相成的關(guān)系。

圖片

越來(lái)越多人意識(shí)到存儲(chǔ)的價(jià)值。今年,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)首次舉辦了存儲(chǔ)大會(huì)。而2024年10月,中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)也成立了數(shù)據(jù)存儲(chǔ)專業(yè)委員會(huì),曙光是會(huì)長(zhǎng)單位。業(yè)內(nèi)甚至有一種說(shuō)法,存儲(chǔ)是算法、算力、數(shù)據(jù)之外,AI基礎(chǔ)設(shè)施的第四支柱。

不過(guò),郭照斌也提到,在存儲(chǔ)標(biāo)準(zhǔn)方面,依然還有很長(zhǎng)的路要走。比如存儲(chǔ)的評(píng)價(jià)方法、測(cè)試方法目前還沒(méi)有特別明確的統(tǒng)一標(biāo)準(zhǔn);而存儲(chǔ)的協(xié)議目前也比較老舊,在應(yīng)用端造成很多的不便。

02

先進(jìn)存力,打通中國(guó)存儲(chǔ)產(chǎn)業(yè)

構(gòu)建先進(jìn)存力中心,成為智能時(shí)代解決數(shù)據(jù)難題的必然發(fā)展方向。

IDC在《構(gòu)建面向智能化時(shí)代的先進(jìn)存力中心》白皮書中提到,先進(jìn)存力中心的技術(shù)突破和應(yīng)用主要體現(xiàn)在應(yīng)用EB級(jí)平滑擴(kuò)展能力、多協(xié)議支持、先進(jìn)軟件架構(gòu)能力、多重防護(hù)機(jī)制、智能化管理平臺(tái)、液冷等先進(jìn)技術(shù),共同鑄就其高效融合、提質(zhì)增效、全域流動(dòng)、安全可靠、綠色低碳等五大特征。

圖片

這些特征背后對(duì)應(yīng)的都是當(dāng)前存儲(chǔ)系統(tǒng)需要應(yīng)對(duì)的難題和挑戰(zhàn)。

比如,隨著數(shù)據(jù)來(lái)源和格式越來(lái)越復(fù)雜,不同存儲(chǔ)系統(tǒng)之間產(chǎn)生了數(shù)據(jù)孤島,影響數(shù)據(jù)的管理和有效利用。而且,許多傳統(tǒng)存儲(chǔ)系統(tǒng)在設(shè)計(jì)時(shí)未充分考慮擴(kuò)展性,難以應(yīng)對(duì)業(yè)務(wù)發(fā)展的需要。

而先進(jìn)存力中心具備足夠的靈活性和可擴(kuò)展性,一方面可以兼容不同架構(gòu)技術(shù)棧,用戶可根據(jù)自身需求靈活選擇技術(shù)方案;另一方面,當(dāng)面對(duì)高并發(fā)和大數(shù)據(jù)集的存儲(chǔ)需求時(shí),能夠平滑擴(kuò)容。

比如大容量、高速率、低延遲逐漸成為智能化時(shí)代評(píng)估存儲(chǔ)系統(tǒng)性能的重要指標(biāo),但當(dāng)前存儲(chǔ)設(shè)備的容量和讀寫性能成為提質(zhì)增效的重要瓶頸。而先進(jìn)存力中心要求具備更高的性能,通過(guò)提升NVMe全閃存的比重,應(yīng)用多級(jí)數(shù)據(jù)加速技術(shù)等,來(lái)實(shí)現(xiàn)海量的存儲(chǔ)空間、超高的吞吐量和IOPS能力。

算力流動(dòng)本質(zhì)是數(shù)據(jù)要素的流動(dòng)。數(shù)據(jù)流動(dòng)需要攻克跨域存儲(chǔ)集群組合管理、數(shù)據(jù)冷熱分級(jí)感知、數(shù)據(jù)跨域網(wǎng)智能流動(dòng)及跨域無(wú)感知訪問(wèn)等關(guān)鍵技術(shù),支撐存力資源的優(yōu)化布局。

而先進(jìn)存力中心需要支持?jǐn)?shù)據(jù)的全域流動(dòng),包括數(shù)據(jù)在集中式、分布式存儲(chǔ)之間的跨平臺(tái)流動(dòng),支持云端和本地化數(shù)據(jù)之間的流動(dòng),以及熱溫冷數(shù)據(jù)跨形態(tài)的流動(dòng)等。

另外,綠色低功耗也在成為先進(jìn)存力中心的必選項(xiàng)。

IDC數(shù)據(jù)顯示,存儲(chǔ)耗能約占數(shù)據(jù)中心總能耗的35%。IDC中國(guó)區(qū)副總裁周震剛提到,過(guò)往都是算力中心對(duì)能耗有比較高的要求,存儲(chǔ)和GPU消耗的算力不在一個(gè)級(jí)別,但隨著大模型訓(xùn)練對(duì)于存儲(chǔ)I/O吞吐的訪問(wèn)猛增,存儲(chǔ)的功耗也被提了起來(lái),所以存儲(chǔ)對(duì)液冷等綠色技術(shù)有了更多的需求。

而作為先進(jìn)存力中心概念的倡導(dǎo)者和先行者,曙光存儲(chǔ)正在快速適應(yīng)AI時(shí)代存儲(chǔ)市場(chǎng)的需要。

2024年6月,曙光存儲(chǔ)發(fā)布全球首個(gè)億級(jí)IOPS集中式全閃存儲(chǔ)FlashNexus,“帶來(lái)了劃時(shí)代的性能革新”,成為業(yè)界唯一具備百控級(jí)擴(kuò)展能力的集中式存儲(chǔ)產(chǎn)品,主要用于金融、運(yùn)營(yíng)商、醫(yī)療等行業(yè)的核心業(yè)務(wù)系統(tǒng)。

當(dāng)下,發(fā)展全閃介質(zhì)已經(jīng)成為行業(yè)共識(shí)。相比傳統(tǒng)的HDD,全閃存介質(zhì)支持高IOPS、低時(shí)延,更適用于AI大模型訓(xùn)練階段的隨機(jī)讀寫場(chǎng)景。

在發(fā)布了首個(gè)集中式全閃產(chǎn)品的同時(shí),曙光也升級(jí)了分布式存儲(chǔ)產(chǎn)品——ParaStor全閃存儲(chǔ),主要面向AI應(yīng)用,依托NVMe全閃的技術(shù)優(yōu)化,單節(jié)點(diǎn)帶寬最高達(dá)到150GB/s、320萬(wàn)IOPS。

ParaStor全閃存儲(chǔ)采用業(yè)界首創(chuàng)五級(jí)加速方案。比如BurstBuffer加速層,只需將關(guān)鍵數(shù)據(jù)存儲(chǔ)在計(jì)算節(jié)點(diǎn)本地的NVMe盤上,避免大量的網(wǎng)絡(luò)數(shù)據(jù)傳輸和遠(yuǎn)程存儲(chǔ)訪問(wèn),適合存儲(chǔ)和快速讀取海量小文件,能夠?qū)⒆x取性能提升數(shù)倍甚至十倍以上。比如XDS雙棧兼容,讓GPU直接訪問(wèn)存儲(chǔ),不僅減少了CPU本身的損耗,也縮短了整個(gè)I/O通路,降低了延時(shí)。

基于分布式帶來(lái)的擴(kuò)展能力,曙光ParaStor分布式全閃存儲(chǔ)已經(jīng)在科教、金融、運(yùn)營(yíng)商、生信等領(lǐng)域,以及自動(dòng)駕駛等AI前沿的應(yīng)用場(chǎng)景中廣泛落地。比如智元機(jī)器人公司在過(guò)去一年時(shí)間,頻繁發(fā)布新品,而智元能實(shí)現(xiàn)產(chǎn)品的快速迭代,背后也是曙光ParaStor分布式全閃存儲(chǔ)在提供支撐。

如今,曙光存儲(chǔ)已經(jīng)形成了FlashNexus集中式存儲(chǔ)和ParaStor分布式存儲(chǔ)兩大產(chǎn)品線。曙光將其分別稱為強(qiáng)存和智存,從其字面意思不難理解,集中式存儲(chǔ)面向的是金融、運(yùn)營(yíng)商等領(lǐng)域的核心業(yè)務(wù)場(chǎng)景,對(duì)性能和可靠性要求高;而以分布式存儲(chǔ)為代表的智存面向的是AI等敏態(tài)業(yè)務(wù)需要。

圖片

而在這兩大不同架構(gòu)的產(chǎn)品線之間,曙光又推出了通存的方案,打通集中式存儲(chǔ)與分布式存儲(chǔ)壁壘,讓數(shù)據(jù)無(wú)界流動(dòng),實(shí)現(xiàn)跨平臺(tái)一鍵式容災(zāi)恢復(fù)、跨形態(tài)熱溫冷數(shù)據(jù)無(wú)感流動(dòng)和跨域資源池全維度視圖,以充分提升存儲(chǔ)資源利用率,同時(shí)更好地支持東數(shù)西存、東數(shù)西渲、東數(shù)西訓(xùn)等應(yīng)用場(chǎng)景。

通過(guò)強(qiáng)存+智存+通存的產(chǎn)品和方案組合,曙光給AI時(shí)代提供的全新數(shù)據(jù)基礎(chǔ)設(shè)施正在得到越來(lái)越多用戶的認(rèn)可。根據(jù)IDC年上半年最新數(shù)據(jù)顯示,曙光的市場(chǎng)增速達(dá)到了19.2%,遠(yuǎn)高于市場(chǎng)平均水平。

03

先進(jìn)客戶,走出了最佳實(shí)踐

位于重慶的西部科學(xué)城先進(jìn)數(shù)據(jù)中心是東數(shù)西算的示范項(xiàng)目,也是成渝樞紐的主節(jié)點(diǎn),通過(guò)高密度液冷機(jī)架和風(fēng)冷機(jī)架相結(jié)合的方式,這里的核心計(jì)算設(shè)備PUE能做到1.04,能耗遠(yuǎn)低于行業(yè)平均水平。

圖片

作為先進(jìn)存力中心的代表之一,這里具備百PB級(jí)的海量存儲(chǔ)容量,支持冷溫?zé)岱旨?jí)存儲(chǔ)跨區(qū)域無(wú)感調(diào)度,可以按需為上層提供從文件、塊、大數(shù)據(jù)等多種協(xié)議的支持,靈活適配前端應(yīng)用。

IDC認(rèn)為,政府建設(shè)區(qū)域先進(jìn)存力中心,需要綜合考慮基礎(chǔ)設(shè)施供應(yīng)、建設(shè)與運(yùn)營(yíng)成本、中心整體存力及算力性能配比、數(shù)據(jù)安全與隱私保護(hù)、生態(tài)開(kāi)放、綠色低碳發(fā)展要求等。

為了滿足不同客戶在先進(jìn)存力上的需求,曙光已經(jīng)探索出了三種部署模式。

除了上述為政府建設(shè)區(qū)域先進(jìn)存力中心,在行業(yè)領(lǐng)域,先進(jìn)存力中心也有廣闊的發(fā)揮空間。比如高端計(jì)算在氣象、環(huán)境、海洋等領(lǐng)域已經(jīng)非常普遍,這些行業(yè)對(duì)數(shù)據(jù)處理能力有著非常高的要求,構(gòu)建行業(yè)/產(chǎn)業(yè)鏈先進(jìn)存力中心變得至關(guān)重要。

中國(guó)氣象局與曙光合作,構(gòu)建了橫跨三地的存力平臺(tái),建立了國(guó)省統(tǒng)一的數(shù)據(jù)環(huán)境,并以NVMe全閃存儲(chǔ)帶來(lái)超強(qiáng)的IOPS性能。根據(jù)億歐智庫(kù)發(fā)布的報(bào)告顯示,中科曙光以52%的市場(chǎng)份額,位居2023年度中國(guó)氣象高端計(jì)算服務(wù)市場(chǎng)應(yīng)收份額頭名。

一位曙光的人士透露,針對(duì)行業(yè)的先進(jìn)存力中心,曙光會(huì)針對(duì)行業(yè)數(shù)據(jù)匯聚需求,做跨域流通的準(zhǔn)備。比如中國(guó)移動(dòng)攜手曙光存儲(chǔ)打造了業(yè)內(nèi)首個(gè)存力智能調(diào)度平臺(tái)。其核心能力包括數(shù)據(jù)的分級(jí)及策略管理,可以按照冷、熱、溫?cái)?shù)據(jù)進(jìn)行分級(jí)管理;統(tǒng)一觀測(cè),支持異構(gòu)存儲(chǔ)統(tǒng)一管理,數(shù)據(jù)和存力分布一目了然;數(shù)據(jù)跨區(qū)域遷移,支持不同資源池間數(shù)據(jù)自由遷移,實(shí)現(xiàn)業(yè)務(wù)無(wú)感訪問(wèn)。

企業(yè)也有自建先進(jìn)存力中心的需求,海量數(shù)據(jù)成為分析和大模型訓(xùn)練的基礎(chǔ),企業(yè)級(jí)先進(jìn)存力中心不僅能夠提供高效、安全的數(shù)據(jù)存儲(chǔ)解決方案,還能夠支持快速的數(shù)據(jù)訪問(wèn)和處理能力,這對(duì)于加速AI模型的訓(xùn)練與推理過(guò)程尤為重要。

比如某家人工智能企業(yè),面臨著訓(xùn)練數(shù)據(jù)龐大和推理過(guò)程對(duì)讀寫速度高的困擾,這家企業(yè)通過(guò)與曙光合作,構(gòu)建先進(jìn)存力中心,應(yīng)用簡(jiǎn)潔的系統(tǒng)架構(gòu)、高效的數(shù)據(jù)流轉(zhuǎn)性能、百微秒級(jí)元數(shù)據(jù)極致訪問(wèn)性能,為業(yè)務(wù)提供堅(jiān)實(shí)支撐。

除了人工智能廠商,自動(dòng)駕駛企業(yè)也對(duì)先進(jìn)存力中心有著旺盛需求,曙光存儲(chǔ)以超過(guò)100PB的存儲(chǔ)能力支撐某自動(dòng)駕駛企業(yè)的模型迭代。

而這些先進(jìn)客戶背后,都代表了所在行業(yè)和領(lǐng)域的動(dòng)向和訴求。曙光存儲(chǔ)通過(guò)發(fā)揮技術(shù)創(chuàng)新和資源整合能力,打通存儲(chǔ)產(chǎn)業(yè)上下游,持續(xù)推動(dòng)三大創(chuàng)新部署模式落地,也取得了階段性成果。

背后離不開(kāi)長(zhǎng)期的產(chǎn)業(yè)實(shí)踐和技術(shù)積累。曙光在存儲(chǔ)領(lǐng)域的開(kāi)拓已有二十年,早在2004年開(kāi)始堅(jiān)定選擇自研路線,致力于解決中國(guó)存儲(chǔ)產(chǎn)業(yè)的底層技術(shù)難題。2009年曙光自研的存儲(chǔ)系統(tǒng)ParaStor正式誕生。2022年11月,曙光ParaStor分布式統(tǒng)一存儲(chǔ)系統(tǒng)登頂IO5O0全球存儲(chǔ)性能評(píng)測(cè)的榜首。

2023年,曙光存儲(chǔ)作為存儲(chǔ)領(lǐng)域的先行者和探索者,率先提出“先進(jìn)存力”的概念,首批試點(diǎn)完成了一些先進(jìn)存力中心的建設(shè)。經(jīng)歷了多個(gè)產(chǎn)業(yè)化升級(jí)的曙光存儲(chǔ),不僅幫助用戶實(shí)現(xiàn)了數(shù)據(jù)基礎(chǔ)設(shè)施的更新迭代,也在服務(wù)用戶的過(guò)程中走出了最佳實(shí)踐,實(shí)現(xiàn)了蝶變。

       原文標(biāo)題 : 存儲(chǔ),也是“一等公民”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)