一文搞懂DeepSeek創(chuàng)新了些啥?
各位小伙伴兒過(guò)年好哈。
春節(jié)這陣子,DeepSeek帶著AI大模型火出了圈,大家都說(shuō)DeepSeek公司和旗下AI大模型有多好多好,但很少提及具體的創(chuàng)新點(diǎn)在哪里。今天我們就來(lái)聊聊DeepSeek具體創(chuàng)新了些啥。
以往,大家普遍認(rèn)為算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到,OpenAI興起的時(shí)候,不僅英偉達(dá)(NVIDIA)因此受益,只要沾邊AI的東西都“飛起”。美國(guó)佬更是通過(guò)禁售英偉達(dá)GPU來(lái)遏制中國(guó)AI發(fā)展。
但就在大家燒錢(qián)堆算力的時(shí)候,DeepSeek選擇燒腦改算法,下面那我就來(lái)捋一捋DeepSeek那些創(chuàng)新的點(diǎn)。(如有不對(duì),歡迎指正):
1、首先我們先看是DeepSeek-V2
DeepSeek-V2可以說(shuō)是DeepSeek的第一次小出圈,當(dāng)時(shí)靠著超低價(jià)格直接讓國(guó)產(chǎn)大模型廠商紛紛降價(jià),那么為什么DeepSeek-V2能做到如何低價(jià)呢?
為了實(shí)現(xiàn)高效的推理和成本效益高的訓(xùn)練,DeepSeek-V2采用了兩大創(chuàng)新:DeepSeekMoE架構(gòu)和多頭潛在注意力(Multi-head Latent Attention,MLA)。這兩個(gè)技術(shù)創(chuàng)新分別針對(duì) Transformer 架構(gòu)中的不同瓶頸,成為DeepSeek-V2出圈的關(guān)鍵所在。
下面我們來(lái)看下什么是MoE架構(gòu)?
我們都知道,Dense大模型是目前國(guó)外主流的模型架構(gòu),DeepSeek-V2放棄了DeepSeek-V1的Dense(密集)路線,轉(zhuǎn)而使用MoE(混合專(zhuān)家模型)路線。
Dense的缺點(diǎn)就是參數(shù)量大,硬件消耗大,這也導(dǎo)致之前的大模型價(jià)格高。MoE由多個(gè)子模型(即“專(zhuān)家expert”)組成,每個(gè)子模型都是一個(gè)局部模型,專(zhuān)門(mén)處理輸入空間的一個(gè)子集。
相當(dāng)于把dense大模型變成很多個(gè)sparse(稀疏)的專(zhuān)家(expert)小模型,通過(guò)多個(gè)模型聚合來(lái)達(dá)到和dense大模型相當(dāng)?shù)哪芰Α^D(zhuǎn)成MoE架構(gòu),DS-V2不僅激活參數(shù)量大大減少,并且性能提升很高。
舉個(gè)例子,傳統(tǒng)的大模型就好比一家?guī)讉(gè)頂級(jí)廚師的餐廳,每個(gè)廚師擅長(zhǎng)所有的菜系,但當(dāng)大量復(fù)雜的菜品出現(xiàn)時(shí),廚師忙不過(guò)來(lái)反而會(huì)造成效率低下。MoE模型則相當(dāng)于招了更多的沒(méi)那么高級(jí)廚師來(lái)說(shuō),但是每個(gè)廚師會(huì)不同的菜系,在面對(duì)復(fù)雜的菜品時(shí),模型能夠根據(jù)菜品的特點(diǎn),智能地將其分配給最合適的廚師處理,從而提高處理效率,減少不必要的資源浪費(fèi)。
可能有人有會(huì)問(wèn),MoE這么好為什么國(guó)外大模型不愛(ài)用呢?
其實(shí)主要原因就是MoE大模型有個(gè)問(wèn)題叫負(fù)載均衡(load balance),會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定。這會(huì)導(dǎo)致一個(gè)問(wèn)題,就是訓(xùn)練過(guò)程中會(huì)采用所謂的專(zhuān)家并行(expert parallelism)機(jī)制,通過(guò)將不同的expert放到不同的顯卡上來(lái)加速訓(xùn)練,而load balance問(wèn)題會(huì)導(dǎo)致某些重要的expert計(jì)算量更大,最終結(jié)果就是不重要的expert所在的顯卡跑不滿,效率不夠高。
DeepSeek-V2則在一些現(xiàn)有的解決load balance問(wèn)題的方法基礎(chǔ)上,引入了額外的損失函數(shù)(即設(shè)備級(jí)平衡損失和通信平衡損失,下圖)來(lái)讓模型在訓(xùn)練中自主控制不同設(shè)備間的平衡,這兩個(gè)優(yōu)化方法都是他們的創(chuàng)新點(diǎn)。
DeepSeek-V2的另一大創(chuàng)新是MLA(Multi-Head Latent Attention,多頭潛注意力,下圖)。
下面我們大概簡(jiǎn)單說(shuō)下。
在大模型運(yùn)行過(guò)程中,每次生成一個(gè)token(可以大概理解為一個(gè)字),而每個(gè)token只與之前的token有關(guān)。在不進(jìn)行優(yōu)化的情況下,每個(gè)token生成的時(shí)候都需要把之前所有的token都處理一遍,這樣的話效率非常差。
由于每個(gè)token只與之前的token有關(guān),我們就可以把上一次生成過(guò)程中計(jì)算過(guò)的矩陣保存下來(lái),這樣生成下一個(gè)token我們可以復(fù)用這個(gè)矩陣,只需要計(jì)算新token的注意力即可。這個(gè)技術(shù)叫做kv-cache,是目前大模型非常常用的優(yōu)化算法。
但是kv-cache需要額外的顯存保存這些kv-cache,這樣的話在上下文(context)很長(zhǎng)的情況下顯存占用會(huì)非常高。尤其是在實(shí)際部署時(shí)服務(wù)器一般會(huì)批量處理并發(fā)請(qǐng)求,這樣的并發(fā)請(qǐng)求會(huì)帶來(lái)恐怖的kv-cache量,會(huì)導(dǎo)致顯存不夠用。
MLA通過(guò)低秩聯(lián)合壓縮鍵值(Key-Value),將它們壓縮為一個(gè)潛在向量(latent vector),從而大幅減少所需的緩存容量。這種方法不僅減少了緩存的數(shù)據(jù)量,還降低了計(jì)算復(fù)雜度。MLA在我看來(lái)是個(gè)天才的想法,比較有趣的是去年梁文峰的訪談提到這個(gè)MLA是某位研究員突發(fā)奇想想到的。當(dāng)然從想法到落地還是很難的,據(jù)他所說(shuō)用了幾個(gè)月。
同樣用上面的飯店來(lái)舉個(gè)例子,傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員的餐廳,每個(gè)服務(wù)員從頭到尾獨(dú)立負(fù)責(zé)自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當(dāng)有大量復(fù)雜菜品出現(xiàn)時(shí),這就可能會(huì)出現(xiàn)多個(gè)服務(wù)員重復(fù)記錄相同訂單、傳菜時(shí)堵在廚房門(mén)口的問(wèn)題。
MLA技術(shù)讓所有服務(wù)員共享一個(gè)智能平板,能實(shí)時(shí)同步訂單、桌號(hào)、菜品狀態(tài)(省去重復(fù)記錄);上菜時(shí),只有負(fù)責(zé)上菜的服務(wù)員工作,其他人在需要時(shí)才會(huì)介入(按需分工)。這樣既能更快地完成任務(wù),又能保證每部分任務(wù)的完成質(zhì)量。
2、接下來(lái)我們來(lái)看下DeepSeek-V3的創(chuàng)新。
DeepSeek-V3在2024年12月發(fā)布,發(fā)布時(shí)候引來(lái)了極大的關(guān)注,也是DeepSeek第一次大范圍出圈,其訓(xùn)練成本低的令人吃驚。DeepSeek-V3和DeepSeek-V2都采用了相同的MoE架構(gòu)合MLA技術(shù),但DeepSeek-V3引入了MTP(Multi-Token Prediction,多token預(yù)測(cè))機(jī)制。
我們都知道,傳統(tǒng)的大模型(LLMs)都是decoder-base的模型結(jié)構(gòu),也就是無(wú)論在模型訓(xùn)練還是在推理階段,對(duì)于一個(gè)序列的生成過(guò)程,都是token-by-token的。每次在生成一個(gè)token的時(shí)候,都要頻繁跟訪存交互,加載KV-Cache,再通過(guò)多層網(wǎng)絡(luò)做完整的前向計(jì)算。對(duì)于這樣的訪存密集型的任務(wù),通常會(huì)因?yàn)樵L存效率形成訓(xùn)練或推理的瓶頸。
針對(duì)token-by-token生成效率的瓶頸,業(yè)界很多方法來(lái)優(yōu)化,包括減少存儲(chǔ)的空間和減少訪存次數(shù)等,進(jìn)而提升訓(xùn)練和推理性能。
而DeepSeek-V3的MTP,通過(guò)對(duì)MTP模塊的重新設(shè)計(jì),使得同時(shí)生成的多個(gè)token之間有了相互的聯(lián)系,從而對(duì)數(shù)據(jù)的利用率更好,而且MTP在生成時(shí)可以通過(guò)更好的預(yù)先規(guī)劃產(chǎn)生更好的生成結(jié)果。
就像飯店的服務(wù)員,在顧客點(diǎn)主菜后,立馬建議甜點(diǎn)和飲料,提前準(zhǔn)備服務(wù),而不是等顧客一個(gè)個(gè)點(diǎn)完,從而使服務(wù)更加流暢、體驗(yàn)更好。
除了架構(gòu)上的升級(jí),DeepSeek-V3的成本之所以能做到那么低,主要原因是優(yōu)化了訓(xùn)練的方法。
比如一般來(lái)說(shuō)現(xiàn)在的大模型都采用BF16精度訓(xùn)練,而DeepSeek-V3原生采用FP-8精度進(jìn)行訓(xùn)練,F(xiàn)P-8精度訓(xùn)練的效率是BF-16精度約1.6倍。他們?yōu)榱朔(wěn)定的FP8訓(xùn)練對(duì)運(yùn)算底層操作進(jìn)行了大量?jī)?yōu)化,因?yàn)橛ミ_(dá)本身沒(méi)有對(duì)FP8進(jìn)行太好的優(yōu)化,畢竟大部分AI企業(yè)都是再用BF16進(jìn)行訓(xùn)練。另外DeepSeek-V3還優(yōu)化了并行流水線(pipeline)共同造就了DeepSeek-V3“AI拼多多”般的低成本。
3、DeepSeek-V3的創(chuàng)新
在2025年1月,DeepSeek-V3發(fā)布。相比于V3,DeepSeek-R1創(chuàng)新性主要體現(xiàn)在“范式轉(zhuǎn)換”上。
一直以來(lái),LLM的訓(xùn)練方式都是讓模型跟著數(shù)據(jù)學(xué)生成,這種方式稱(chēng)之為監(jiān)督學(xué)習(xí)(Supervised Finetuning,SFT)。而R1采用了強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的方法。
RL通俗來(lái)說(shuō)就是讓模型(agent)和環(huán)境(environment)進(jìn)行互動(dòng),然后通過(guò)其互動(dòng)的結(jié)果進(jìn)行打分(reward),從而訓(xùn)練模型。大語(yǔ)言模型此前采用的RLHF(人類(lèi)反饋強(qiáng)化學(xué)習(xí))也是RL的一種。但和RLHF不同的是,R1采用的RL方法(稱(chēng)為GRPO,Group Relative Policy Optimization,組相關(guān)策略?xún)?yōu)化,下圖)并不需要一個(gè)龐大的人類(lèi)標(biāo)注數(shù)據(jù)庫(kù)。
他的訓(xùn)練方式很簡(jiǎn)單:讓模型自己生成過(guò)程,最后只檢查結(jié)果是否正確。如果是數(shù)學(xué)題,那么就看輸出的結(jié)果文本;如果是編程題,那就看運(yùn)行后的結(jié)果。而DeepSeek發(fā)現(xiàn),在V3的基礎(chǔ)上直接采用這種簡(jiǎn)單的RL,竟然能讓新的模型具有推理(Reasoning)的能力,而且隨著訓(xùn)練步數(shù)增多,其思維鏈(Chain-of-Thought,CoT)的長(zhǎng)度也越來(lái)越長(zhǎng),并且發(fā)現(xiàn)模型開(kāi)始在推理過(guò)程中自我反思。
這個(gè)純RL方法練出來(lái)的模型就是R1-Zero,是完全RL訓(xùn)練出來(lái)的模型,一開(kāi)始沒(méi)有教模型任何圍棋知識(shí),一切全靠模型自己摸索,最后達(dá)到超越人類(lèi))。但是DS發(fā)現(xiàn)R1-Zero的CoT并不是很完美,最大問(wèn)題是可讀性很差。
所以他們利用R1-Zero生成了一批帶有CoT的“冷啟動(dòng)樣本”,然后對(duì)V3進(jìn)行了一次SFT,這樣就獲得了一個(gè)初步能夠進(jìn)行推理的模型(稱(chēng)為模型1)。接下來(lái)他們對(duì)模型1進(jìn)行一次基于GRPO的RL(和R1-Zero一樣),然后用這個(gè)模型1生成一批高質(zhì)量的推理數(shù)據(jù)集。接著,再用V3生成一批沒(méi)有推理的數(shù)據(jù)集(主要用于保證模型的文科類(lèi)能力,比如寫(xiě)作、事實(shí)問(wèn)答)。然后將這兩個(gè)數(shù)據(jù)集合并(文理科合并),重新對(duì)V3進(jìn)行SFT,獲得模型2,再對(duì)模型2進(jìn)行基于GRPO的RL,最終獲得R1。
R1證明了一件事:就是如果基礎(chǔ)模型能力夠強(qiáng)(如V3),在RL過(guò)程中它就能自己學(xué)會(huì)推理。這也是為什么國(guó)外AI圈的人看到DS-R1之后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗(yàn)镽1說(shuō)明能力足夠強(qiáng)的模型是可以不依靠人類(lèi)自己進(jìn)化的(當(dāng)然,嚴(yán)格來(lái)說(shuō)現(xiàn)階段的reward還是需要標(biāo)簽的)。
4、模式創(chuàng)新,“繞過(guò)”通用,從垂直場(chǎng)景切入。
根據(jù)DeepSeek公布的跑分?jǐn)?shù)據(jù)顯示,DeepSeek-R1在培訓(xùn)后階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù),在數(shù)學(xué)、代碼、自然語(yǔ)言推理和其他任務(wù)上,其性能可與OpenAI o1正式版本媲美,而價(jià)格僅為o1的3%。
但這并不意味著DeepSeek-R1超越了OpenAI o1,畢竟OpenAI優(yōu)先追求的是“通用智能”,投入大量資金人力,想要的是全能通才的效果。國(guó)內(nèi)企業(yè)開(kāi)發(fā)AI大模型也大都沿用這一思路,希望自家大模型沒(méi)有什么明顯的能力短板,快速達(dá)到可商用水平。
而DeepSeek選擇從垂直場(chǎng)景切入,先追求在部分領(lǐng)域(如數(shù)學(xué)、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。這是一種能夠快速成長(zhǎng)和建立差異化優(yōu)勢(shì)的發(fā)展策略。
因?yàn)椋P者認(rèn)為,目前中國(guó)的大模型企業(yè),不必都扎堆死磕“全能大模型”,可選擇垂直場(chǎng)景靶向爆破:這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn),又能通過(guò)構(gòu)建起數(shù)據(jù)護(hù)城河,進(jìn)而在細(xì)分領(lǐng)域闖出一片天。
原文標(biāo)題 : 一文搞懂DeepSeek創(chuàng)新了些啥?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?