DeepSeek到底用了多少GPU?
各位小伙伴們大家好呀
在中國春節(jié)期間DeepSeek靠著超低價(jià)格迅速出圈,掀起了一場全球AI大模型風(fēng)暴。這直接改變了以前大家普遍認(rèn)為的發(fā)展AI就要不斷地堆算力、堆GPU的“傳統(tǒng)”觀念。
但很多網(wǎng)友會有一個(gè)疑問:訓(xùn)練出DeepSeek,需要多少GPU呢?
關(guān)于這個(gè)問題,網(wǎng)上也是說法不一,甚至連“美國鋼鐵俠”馬斯克也在瘋狂質(zhì)疑DeepSeek:不信只用了極少的芯片。
那么DeepSeek到底用了多少GPU呢?最近國外網(wǎng)站SemiAnalysis對這一話題進(jìn)行了分析,我個(gè)人覺得相對比較符合事實(shí),我們今天拿過來一起來討論一下。
▉ DeepSeek與幻方
對于密切關(guān)注AI大模型領(lǐng)域的人來說,DeepSeek嚴(yán)格意義上其實(shí)并不算一家新公司。
DeepSeek創(chuàng)始人梁文鋒1985年出生于廣東省湛江市,2015年梁文鋒與朋友一同創(chuàng)辦了幻方量化(High-Flyer),是最早在交易算法中使用人工智能的機(jī)構(gòu)之一。
他們很早就意識到AI人工智能在金融以外領(lǐng)域的潛力,以及擴(kuò)展的重要性。因此,他們不斷擴(kuò)充其GPU的供應(yīng)。在2021年出口限制之前,High-Flyer就投資了1萬個(gè)A100 GPU,這一舉措獲得了豐厚回報(bào)。
隨著High-Flyer的不斷進(jìn)步,2023年5月他們意識到是時(shí)候分拆出“DeepSeek”,以更專注地追求進(jìn)一步的人工智能能力。由于當(dāng)時(shí)外部投資者對人工智能興趣不大,主要擔(dān)心缺乏商業(yè)模式,High-Flyer自行投資了這家公司,這在現(xiàn)在看來是多個(gè)明智的一項(xiàng)投資。
由于這層關(guān)系,如今High-Flyer和DeepSeek經(jīng)常共享人力和計(jì)算資源。
DeepSeek如今已經(jīng)發(fā)展成為一個(gè)嚴(yán)肅且有組織的努力方向,絕非許多媒體所聲稱的“副業(yè)”。SemiAnalysis認(rèn)為,即使考慮到出口管制,他們在GPU上的投資也已超過5億美元。
▉ DeepSeek的GPU資源分布
SemiAnalysis預(yù)估,DeepSeek使用大約5萬個(gè)Hopper GPU來做訓(xùn)練,當(dāng)然正如一些人所聲稱的那樣,這并不等同于5萬個(gè)H100。英偉達(dá)根據(jù)不同法規(guī)制造了H100的不同版本(H800、H20),目前只有H20可供中國的模型供應(yīng)商使用。
需要注意的是,H800的計(jì)算能力與H100相同,但網(wǎng)絡(luò)帶寬較低。
SemiAnalysis認(rèn)為DeepSeek使用了大約1萬個(gè)H800和大約1萬個(gè)H100。此外,他們還訂購了更多的H20,英偉達(dá)在過去9個(gè)月中已經(jīng)生產(chǎn)了超過100萬個(gè)專為中國設(shè)計(jì)的GPU。這些GPU在High-Flyer和DeepSeek之間共享,并在一定程度上地理分散部署,用于交易、推理、訓(xùn)練和研究。
通過分析顯示,DeepSeek的服務(wù)器總資本支出約為16億美元,其中與運(yùn)營這些集群相關(guān)的成本相當(dāng)可觀,達(dá)到9.44億美元。
同樣,所有AI實(shí)驗(yàn)室和超大規(guī)模云服務(wù)提供商都有更多的GPU用于各種任務(wù),包括研究和訓(xùn)練,而不是僅用于單次訓(xùn)練運(yùn)行,如何有效集中資源進(jìn)行特定任務(wù)的訓(xùn)練也是DeepSeek的挑戰(zhàn)之一。
在人才方面,DeepSeek專注從中國招聘人才,并不考慮之前的資歷,重點(diǎn)放在能力和好奇心上。據(jù)了解,DeepSeek定期在北大和浙大等頂尖大學(xué)舉辦招聘會,許多員工都畢業(yè)于這些學(xué)校。職位并不一定預(yù)先定義,招聘人員被賦予靈活性,甚至在招聘廣告中吹噓可以無限制地使用數(shù)萬個(gè)GPU。
DeepSeek極具競爭力,據(jù)稱為有前途的候選人提供超過130萬美元的薪水,遠(yuǎn)高于同為中國的競爭對手,如Moonshot。DeepSeek目前有大約150名員工,但正在迅速增長。
正如歷史所證明的那樣,一個(gè)資金充足且專注的小型初創(chuàng)公司往往能夠突破可能的邊界。DeepSeek沒有像谷歌那樣的官僚機(jī)構(gòu),并且由于是自籌資金,他們可以迅速推進(jìn)想法。然而,與谷歌一樣,DeepSeek(在大多數(shù)情況下)自行運(yùn)營數(shù)據(jù)中心,不依賴外部方或提供商。這為實(shí)驗(yàn)開辟了更多空間,使他們能夠在整個(gè)堆棧中進(jìn)行創(chuàng)新。
SemiAnalysis認(rèn)為DeepSeek是當(dāng)今最好的“開放靈活”實(shí)驗(yàn)室,超過了Meta的Llama項(xiàng)目、Mistral等。
▉ DeepSeek的訓(xùn)練成本和性能
近期,一個(gè)新聞?lì)^條中提到DeepSeek的價(jià)格和效率引發(fā)了全球的熱潮,標(biāo)題是DeepSeek V3的訓(xùn)練成本只有“600萬美元”,這是錯(cuò)誤的。這就好比指出產(chǎn)品材料清單中的一個(gè)特定部分,并將其視為全部成本。預(yù)訓(xùn)練成本只是總成本中非常狹窄的一部分。
下面我們來看下DeepSeek整體的訓(xùn)練成本
我們相信預(yù)訓(xùn)練的成本遠(yuǎn)遠(yuǎn)不是模型實(shí)際花費(fèi)的金額。
SemiAnalysis認(rèn)為DeepSeek在公司歷史上對硬件的支出遠(yuǎn)遠(yuǎn)超過5億美元。在模型開發(fā)過程中,為了開發(fā)新的架構(gòu)創(chuàng)新,需要在測試新想法、新的架構(gòu)想法和消融研究上花費(fèi)相當(dāng)多的資金。
比如多頭潛在注意力(Multi-Head Latent Attention)是DeepSeek的一個(gè)關(guān)鍵創(chuàng)新,它的開發(fā)花費(fèi)了團(tuán)隊(duì)幾個(gè)月的時(shí)間開發(fā),涉及了大量的人力和GPU資源。
文章中提到的600萬美元成本僅歸因于預(yù)訓(xùn)練運(yùn)行的GPU成本,這只是模型總成本的一部分。被排除在外的還有像研發(fā)和硬件本身的總擁有成本(TCO)這樣重要的部分。
作為參考,Claude 3.5 Sonnet的訓(xùn)練成本為數(shù)千萬美元,如果這就是Anthropic所需的全部成本,那么他們就不會從谷歌籌集數(shù)十億美元,從亞馬遜籌集數(shù)百億美元了。這是因?yàn)樗麄冃枰M(jìn)行實(shí)驗(yàn)、提出新的架構(gòu)、收集和清理數(shù)據(jù)、支付員工工資等。
那么DeepSeek是如何擁有如此龐大的集群的呢?出口管制的滯后是關(guān)鍵,此外,他們還訂購了大量的H20型號GPU,這是專門為滿足中國市場的需求而生產(chǎn)的。
下面我們來看下V3的性能
V3無疑是一個(gè)令人印象深刻的模型,但值得注意的是,它相對于什么來說是令人印象深刻的。許多人將V3與GPT-4o進(jìn)行比較,并強(qiáng)調(diào)V3的性能超過了4o。這是事實(shí),但GPT-4o是在2024年5月發(fā)布的。而在AI領(lǐng)域,這段時(shí)間已經(jīng)帶來了顯著的算法進(jìn)步。
隨著時(shí)間的推移,使用較少的計(jì)算資源實(shí)現(xiàn)相同或更強(qiáng)的能力是正常的。例如,現(xiàn)在可以在筆記本電腦上運(yùn)行的小型模型,其性能與GPT-3相當(dāng),而GPT-3的訓(xùn)練需要超級計(jì)算機(jī),并且推理需要多個(gè)GPU。
換句話說,算法改進(jìn)使得訓(xùn)練和推理相同能力模型所需的計(jì)算量減少,這種模式一次又一次地出現(xiàn)。這一次,世界之所以注意到,是因?yàn)樗鼇碜灾袊膶?shí)驗(yàn)室。但小型模型性能提升并不是什么新鮮事。
到目前為止,我們見證的這種模式表明,人工智能實(shí)驗(yàn)室在絕對美元支出上花費(fèi)更多,以換取更高的性價(jià)比。據(jù)估計(jì),算法進(jìn)步的速度為每年4倍,這意味著每過一年,實(shí)現(xiàn)相同能力所需的計(jì)算量就會減少到原來的1/4。
Anthropic的首席執(zhí)行官Dario認(rèn)為,算法的進(jìn)步速度甚至更快,可以帶來10倍的提升。就GPT-3級別的推理定價(jià)而言,成本已經(jīng)降低了1200倍。
在研究GPT-4的成本時(shí),我們看到了類似的成本下降趨勢,盡管這處于曲線的更早期階段。盡管隨著時(shí)間推移成本差異的減少可以通過不再保持能力恒定來解釋,但在這種情況下,我們看到算法改進(jìn)和優(yōu)化帶來了成本的10倍降低和能力的10倍提升。
需要明確的是,DeepSeek的獨(dú)特之處在于他們率先實(shí)現(xiàn)了這一成本和能力水平。他們在發(fā)布開源權(quán)重方面也是獨(dú)一無二的,但之前的Mistral和Llama模型也曾這樣做過。DeepSeek已經(jīng)實(shí)現(xiàn)了這一成本水平,但到今年年底,不要對成本再下降5倍感到驚訝。
R1的性能是否與o1相當(dāng)?
另一方面,R1能夠達(dá)到與o1相當(dāng)?shù)慕Y(jié)果,而o1是在9月才剛剛宣布的。DeepSeek是如何如此迅速地迎頭趕上的呢?
答案在于推理是一個(gè)新的范式,它具有更快的迭代速度和更低的入門門檻,能夠在較小的計(jì)算量下取得有意義的收益,這比之前的范式更有優(yōu)勢。正如在擴(kuò)展定律報(bào)告中所概述的那樣,之前的范式依賴于預(yù)訓(xùn)練,而這正變得越來越昂貴,也越來越難以取得穩(wěn)健的收益。
這個(gè)新的范式專注于通過在現(xiàn)有模型上進(jìn)行后訓(xùn)練的合成數(shù)據(jù)生成和強(qiáng)化學(xué)習(xí)(RL)來實(shí)現(xiàn)推理能力,這使得人們能夠以更低的價(jià)格更快地取得進(jìn)步。較低的入門門檻加上易于優(yōu)化的特點(diǎn),使得DeepSeek能夠比以往更快地復(fù)制o1的方法。隨著參與者逐漸學(xué)會在這個(gè)新范式中實(shí)現(xiàn)更大規(guī)模的擴(kuò)展,預(yù)計(jì)匹配能力的時(shí)間差距將會增加。
需要注意的是,R1的論文中沒有提及所使用的計(jì)算量。這并非偶然——為了進(jìn)行R1的后訓(xùn)練,生成合成數(shù)據(jù)需要大量的計(jì)算,更不用說強(qiáng)化學(xué)習(xí)了。R1是一個(gè)非常好的模型,我們并不否認(rèn)這一點(diǎn),如此迅速地達(dá)到推理能力的前沿是令人欽佩的。DeepSeek作為中國的公司,而且用更少的資源就迎頭趕上了,這更令人印象深刻。
但是R1提到的一些基準(zhǔn)測試也是具有誤導(dǎo)性的。將R1與o1進(jìn)行比較是很棘手的,因?yàn)镽1故意沒有提及他們沒有領(lǐng)先的基準(zhǔn)測試。而且盡管R1在推理性能上與o1相當(dāng),但在許多情況下,它并不是每個(gè)指標(biāo)的明確贏家,而且在許多情況下,它比o1更差。
我們還沒有提到O3。O3的能力比R1和O1都要高出很多。事實(shí)上,OpenAI最近分享了O3的結(jié)果,其基準(zhǔn)測試的提升是垂直的。“深度學(xué)習(xí)撞墻了”,但這是另一種類型的“墻”。
谷歌的推理模型與R1相當(dāng)?
盡管R1引發(fā)了大量炒作,但一家市值2.5萬億美元的公司早在一個(gè)月前就發(fā)布了一個(gè)更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。該模型已經(jīng)可以使用,并且比R1便宜得多,盡管它的模型上下文長度通過API要大得多。
在報(bào)告的基準(zhǔn)測試中,F(xiàn)lash 2.0 Thinking擊敗了R1,盡管基準(zhǔn)測試并不能說明全部情況。谷歌只發(fā)布了3個(gè)基準(zhǔn)測試,因此這是一個(gè)不完整的畫面。盡管如此,我們認(rèn)為谷歌的模型是穩(wěn)健的,在許多方面都能與R1抗衡,盡管它沒有受到任何炒作。這可能是因?yàn)楣雀柙愀獾纳鲜胁呗院陀脩趔w驗(yàn)不佳,但也因?yàn)镽1是一個(gè)來自中國的驚喜。
明確地說,這些都不會削弱DeepSeek的杰出成就。DeepSeek作為一個(gè)快速行動(dòng)、資金充足、聰明且專注的初創(chuàng)公司,能夠擊敗像Meta這樣的巨頭發(fā)布推理模型,這是值得稱贊的。
▉ DeepSeek技術(shù)創(chuàng)新
DeepSeek破解了AI大模型密碼,解鎖了領(lǐng)先實(shí)驗(yàn)室尚未實(shí)現(xiàn)的創(chuàng)新。SemiAnalysis預(yù)計(jì),DeepSeek發(fā)布的任何改進(jìn)都將被西方實(shí)驗(yàn)室?guī)缀趿⒓磸?fù)制。
這些改進(jìn)是什么?大多數(shù)架構(gòu)成就都與V3有關(guān),V3是R1的基礎(chǔ)模型。讓我們詳細(xì)說明這些創(chuàng)新。
訓(xùn)練方面(預(yù)訓(xùn)練和微調(diào))
DeepSeek V3在前所未有的規(guī)模上使用了多標(biāo)記預(yù)測(MTP),并且增加了注意力模塊,這些模塊預(yù)測接下來的幾個(gè)標(biāo)記,而不是單一標(biāo)記。這在訓(xùn)練期間提高了模型性能,并且可以在推理時(shí)丟棄。這是一個(gè)算法創(chuàng)新的例子,它實(shí)現(xiàn)了在較低計(jì)算量的情況下提高性能。
還有其他考慮因素,比如在訓(xùn)練中使用FP8精度,但領(lǐng)先的美國實(shí)驗(yàn)室已經(jīng)進(jìn)行了很長時(shí)間的FP8訓(xùn)練。
DeepSeek V3也是一種混合專家模型,這是一個(gè)由許多其他較小的專家組成的大型模型,這些專家擅長不同的事情,這是一種新興行為。混合專家模型面臨的一個(gè)挑戰(zhàn)是如何確定哪個(gè)標(biāo)記應(yīng)該分配給哪個(gè)子模型或“專家”。
DeepSeek實(shí)現(xiàn)了一個(gè)“門控網(wǎng)絡(luò)”,以平衡的方式將標(biāo)記派發(fā)到正確的專家,而不會降低模型性能。這意味著派發(fā)非常高效,并且在訓(xùn)練期間,相對于模型的整體大小,每個(gè)標(biāo)記只改變少量參數(shù)。這增加了訓(xùn)練效率,并降低了推理的成本。
盡管有人擔(dān)心混合專家(MoE)的效率提升可能會減少投資,但Dario指出,更強(qiáng)大的人工智能模型帶來的經(jīng)濟(jì)效益如此巨大,以至于任何成本節(jié)約都會迅速重新投入到構(gòu)建更大模型中。與其減少整體投資,混合專家的效率提升將加速人工智能的擴(kuò)展努力。公司專注于將模型擴(kuò)展到更多的計(jì)算資源,并在算法上提高它們的效率。
就R1而言,它從擁有一個(gè)強(qiáng)大的基礎(chǔ)模型(V3)中受益匪淺。這在一定程度上是因?yàn)閺?qiáng)化學(xué)習(xí)(RL)。強(qiáng)化學(xué)習(xí)有兩個(gè)重點(diǎn):格式化(以確保其提供連貫的輸出)和有用性與無害性(以確保模型是有用的)。推理能力是在模型在合成數(shù)據(jù)集上進(jìn)行微調(diào)時(shí)出現(xiàn)的。
需要注意的是,在R1論文中沒有提到計(jì)算量,這是因?yàn)樘岬绞褂玫挠?jì)算量會顯示他們擁有的GPU比他們聲稱的要多。這種規(guī)模的強(qiáng)化學(xué)習(xí)需要大量的計(jì)算,尤其是用于生成合成數(shù)據(jù)。
此外,DeepSeek使用的一部分?jǐn)?shù)據(jù)似乎來自O(shè)penAI的模型,SemiAnalysis認(rèn)為這將對從輸出中提取信息的政策產(chǎn)生影響。這在服務(wù)條款中已經(jīng)是非法的,但展望未來,一種新的趨勢可能是某種形式的KYC(了解你的客戶),以阻止提取信息。
說到提取信息,R1論文中最有趣的部分或許是能夠通過用推理模型的輸出對較小的非推理模型進(jìn)行微調(diào),從而將它們變成推理模型。數(shù)據(jù)集策劃總共包含了80萬個(gè)樣本,現(xiàn)在任何人都可以使用R1的CoT輸出來創(chuàng)建自己的數(shù)據(jù)集,并借助這些輸出制作推理模型。我們可能會看到更多較小的模型展示推理能力,從而提升小模型的性能。
多頭潛在注意力(MLA)
MLA是DeepSeek大幅降低推理成本的關(guān)鍵創(chuàng)新之一。原因是MLA將每個(gè)查詢所需的KV緩存減少了約93.3%,與標(biāo)準(zhǔn)注意力相比。KV緩存是Transformer模型中的一種內(nèi)存機(jī)制,用于存儲代表對話上下文的數(shù)據(jù),減少不必要的計(jì)算。
隨著對話上下文的增長,KV緩存也會增加,并且會帶來相當(dāng)大的內(nèi)存限制。大幅減少每個(gè)查詢所需的KV緩存可以減少每個(gè)查詢所需的硬件數(shù)量,從而降低成本。
然而,SemiAnalysis認(rèn)為DeepSeek正在以成本價(jià)提供推理服務(wù)以獲得市場份額,而不是真正賺錢。谷歌的Gemini Flash 2.0 Thinking仍然更便宜,而且谷歌不太可能以成本價(jià)提供該服務(wù)。MLA特別引起了眾多領(lǐng)先美國實(shí)驗(yàn)室的關(guān)注。MLA于2024年5月發(fā)布的DeepSeek V2中推出。由于H20的內(nèi)存帶寬和容量比H100更高,DeepSeek在推理工作負(fù)載方面也享受了更多效率。
關(guān)注DeepSeek的創(chuàng)新的內(nèi)容詳解可以查看我上一篇文章《一文搞懂DeepSeek創(chuàng)新了些啥?》
目前來說,DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過使用智能工作負(fù)載分配、量化和動(dòng)態(tài) GPU 分配,業(yè)務(wù)可以顯著降低計(jì)算成本,同時(shí)保持高性能。這也是DeepSeek被稱作"國運(yùn)級"產(chǎn)品的重要原因吧。
原文標(biāo)題 : DeepSeek到底用了多少GPU?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?