DeepSeek掀起算力革命,英偉達(dá)挑戰(zhàn)加劇,ASIC芯片崛起
編者按:芯事重重“算力經(jīng)濟(jì)學(xué)”系列研究,聚焦算力、成本相關(guān)話題的技術(shù)分析、產(chǎn)業(yè)穿透,本期聚焦ASIC芯片自研與產(chǎn)業(yè)鏈研究。本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議。
作者:由我、蘇揚(yáng)
編輯:鄭可君
DeepSeek帶動(dòng)推理需求爆發(fā),英偉達(dá)的“算力霸權(quán)”被撕開一道口子,一個(gè)新世界的大門逐漸打開——由ASIC芯片主導(dǎo)的算力革命,正從靜默走向喧囂。日前,芯流智庫援引知情人士的消息,稱DeepSeek正在籌備AI芯片自研。相比這個(gè)后起之秀,國內(nèi)大廠如阿里、百度、字節(jié)們更早就跨過了“自研”的大門。大洋彼岸,OpenAI自研芯片的新進(jìn)展也在年初釋出,外媒披露博通為其定制的首款芯片幾個(gè)月內(nèi)將在臺(tái)積電流片。此前更是一度傳出Sam Altman計(jì)劃籌集70000億美元打造“芯片帝國”,設(shè)計(jì)與制造通吃。此外,谷歌、亞馬遜、微軟、Meta也都先后加入了這場“自研熱潮”。一個(gè)明顯的信號(hào)是——無論DeepSeek、OpenAI,還是中國公司和硅谷大廠,誰都不希望在算力時(shí)代掉隊(duì)。
而ASIC芯片,可能會(huì)成為他們跨越新世界大門的入場券。這會(huì)不會(huì)“殺死”英偉達(dá)?或者,會(huì)不會(huì)“再造”第二個(gè)英偉達(dá)?現(xiàn)在還沒有答案。不過可以明確的是,這場轟轟烈烈的“自研浪潮”,其上游的產(chǎn)業(yè)鏈企業(yè)已經(jīng)“春江水暖鴨先知”,例如給各家大廠提供設(shè)計(jì)定制服務(wù)的博通,業(yè)績已經(jīng)“起飛”:2024年AI業(yè)務(wù)收入同比240%,達(dá)到37億美元;2025Q1AI業(yè)務(wù)營收41億美元,同比增77%;其中80%來自ASIC芯片設(shè)計(jì)。在博通的眼里,ASIC芯片這塊蛋糕,價(jià)值超過900億美元。
01從GPU到ASIC,算力經(jīng)濟(jì)學(xué)走向分水嶺
低成本是AI推理爆發(fā)的必要條件,與之相對(duì)的是——通用GPU芯片成了AI爆發(fā)的黃金枷鎖。英偉達(dá)的H100和A100是大模型訓(xùn)練的絕對(duì)王者,甚至連B200、H200也讓科技巨頭們趨之若鶩。金融時(shí)報(bào)此前援引Omdia的數(shù)據(jù),2024年,英偉達(dá)Hopper架構(gòu)芯片的主要客戶包括微軟、Meta、Tesla/xAI等,其中微軟的訂單量達(dá)到50萬張。但是,作為通用GPU的絕對(duì)統(tǒng)治者,英偉達(dá)產(chǎn)品方案其“硬幣的另一面”已逐漸顯現(xiàn):高昂的成本與冗余的能耗。成本方面,單個(gè)H100售價(jià)超3萬美元,訓(xùn)練千億參數(shù)模型需上萬張GPU,再加上網(wǎng)絡(luò)硬件、存儲(chǔ)和安全等后續(xù)的投入,總計(jì)超5億美元。根據(jù)匯豐的數(shù)據(jù),最新一代的GB200 NVL72方案,單機(jī)柜超過300萬美元,NVL36也在180萬美元左右。可以說,基于通用GPU的模型訓(xùn)練太貴了,只不過是算力不受限制的硅谷,仍然偏向于“力大磚飛”的敘事,資本支出并未就此減速。
就在日前,馬斯克旗下xAI,不久之前公布的Grok-3,訓(xùn)練的服務(wù)器規(guī)模,已經(jīng)達(dá)到了20萬張GPU的規(guī)模。騰訊科技聯(lián)合硅兔賽跑推出的《兩萬字詳解最全2025 AI關(guān)鍵洞察》一文提到,超大規(guī)模數(shù)據(jù)中心運(yùn)營商預(yù)計(jì)2024年資本支出(CapEx)超過 2000億美元,到2025年這一數(shù)字預(yù)計(jì)將接近2500億美元,且主要資源都將傾斜給人工智能。能耗方面,根據(jù)SemiAnalysis的測(cè)算,10萬卡H100集群,總功耗為150MW,每年耗費(fèi)1.59TWh的電量,按0.078美元/千瓦時(shí)計(jì)算,每年電費(fèi)高達(dá)1.239億美元。對(duì)照OpenAI公布的數(shù)據(jù),推理階段GPU的算力利用率僅30%-50%,“邊算邊等”現(xiàn)象顯著,如此低效的性能利用率,在推理時(shí)代,確實(shí)是大材小用,浪費(fèi)過于嚴(yán)重。
谷歌此前公布的TPU V4與A100針對(duì)不同架構(gòu)模型的訓(xùn)練速度性能領(lǐng)先、價(jià)格昂貴,效率不佳,外加生態(tài)壁壘,過去一年業(yè)內(nèi)都在喊“天下苦英偉達(dá)久矣”——云廠商逐漸喪失硬件自主權(quán),疊加供應(yīng)鏈風(fēng)險(xiǎn),再加上AMD暫時(shí)還“扶不起來”,諸多因素倒逼巨頭開始自研ASIC專用芯片。自此,AI芯片戰(zhàn)場,從技術(shù)競賽轉(zhuǎn)向經(jīng)濟(jì)性博弈。正如西南證券的研究結(jié)論,“當(dāng)模型架構(gòu)進(jìn)入收斂期,算力投入的每一美元都必須產(chǎn)出可量化的經(jīng)濟(jì)收益。”從北美云廠商最近反饋的進(jìn)展看,ASIC已體現(xiàn)出一定的替代優(yōu)勢(shì):
●谷歌:博通為谷歌定制的TPU v5芯片在Llama-3推理場景中,單位算力成本較H100降低70%。
●亞馬遜:3nm制程的AWS Trainium 3,同等算力下能耗僅為通用GPU的1/3,年節(jié)省電費(fèi)超千萬美元;據(jù)了解,亞馬遜Trainium芯片2024年出貨量已超50萬片。
●微軟:根據(jù)IDC數(shù)據(jù),微軟Azure自研ASIC后,硬件采購成本占比從75%降至58%,擺脫長期被動(dòng)的議價(jià)困境。作為北美ASIC鏈的最大受益者,博通這一趨勢(shì)在數(shù)據(jù)中愈發(fā)顯著。博通2024年AI業(yè)務(wù)收入37億美元,同比增240%,其中80%來自ASIC設(shè)計(jì)服務(wù)。2025Q1,其AI業(yè)務(wù)營收41億美元,同比增77%,同時(shí)預(yù)計(jì)第二季度AI營收44億美元,同比增44%。
早在年報(bào)期間,博通指引2027年ASIC收入將大爆發(fā),給市場畫了3年之后ASIC芯片將有望達(dá)到900億美元的市場規(guī)模這個(gè)大餅。Q1電話會(huì)期間,公司再次重申了這一點(diǎn)。憑借這個(gè)大的產(chǎn)業(yè)趨勢(shì),博通也成為全球繼英偉達(dá)、臺(tái)積電之后,第三家市值破1萬億美元的半導(dǎo)體公司,同時(shí)也帶動(dòng)了海外對(duì)于Marvell、AIchip等公司的關(guān)注。
圖:市面主流GPU與ASIC算力成本對(duì)比 資料來源:西南證券
不過,有一點(diǎn)需要強(qiáng)調(diào)——“ASIC雖好,但也不會(huì)殺死GPU”。微軟、谷歌、Meta都在下場自研,但同時(shí)又都在搶英偉達(dá)B200的首發(fā),這其實(shí)說明了雙方之間不是直接的競爭關(guān)系。更客觀的結(jié)論應(yīng)該是,GPU仍將主導(dǎo)高性能的訓(xùn)練市場,推理場景中由于GPU的通用性仍將是最主要的芯片,但在未來接近4000億美元的AI芯片藍(lán)海市場中,ASIC的滲透路徑已清晰可見。
IDC預(yù)測(cè),2024-2026年推理場景中,ASIC占比從15%提升至40%,即最高1600億美元。這場變革的終局或許是:ASIC接管80%的推理市場,GPU退守訓(xùn)練和圖形領(lǐng)域。真正的贏家將是那些既懂硅片、又懂場景的“雙棲玩家”,英偉達(dá)顯然是其中一員,看好ASIC斷然不是唱空英偉達(dá)。而新世界的指南,是去尋找除英偉達(dá)之外的雙棲玩家,如何掘金ASIC新紀(jì)元。
02ASIC的“手術(shù)刀”:非核心模塊,通通砍掉
錦緞在《DeepSeek的隱喻:GPU失其鹿,ASIC、SoC們共逐之》一文中詳解過SoC,而CPU、GPU用戶早已耳熟能詳,F(xiàn)PGA應(yīng)用市場小眾,最為陌生的當(dāng)屬ASIC。特性CPUGPUFPGAASIC定制化程度通用半通用半定制化全定制化靈活性高高高低成本較低高較高低功耗較高高較高低主要優(yōu)點(diǎn)通用性最強(qiáng)計(jì)算能力強(qiáng),生態(tài)成熟靈活強(qiáng)較高能效最高主要缺點(diǎn)并行算力弱功耗較大,編程難度較大峰值計(jì)算能力弱,編程難度較難研發(fā)時(shí)間長,技術(shù)風(fēng)險(xiǎn)高應(yīng)用場景較少用于AI云端訓(xùn)練和推理云端推理,終端推理云端訓(xùn)練和推理,終端推理圖:算力芯片對(duì)比 資料來源:中泰證券那么,都說ASIC利好AI推理,究竟它是一個(gè)什么樣的芯片?
從架構(gòu)上來說, GPU這樣的通用芯片,其局限在于“以一敵百”的設(shè)計(jì)——需要兼顧圖形渲染、科學(xué)計(jì)算、不同的模型架構(gòu)等多元需求,導(dǎo)致大量晶體管資源浪費(fèi)在非核心功能模塊。英偉達(dá)GPU最大的特點(diǎn),就是有眾多“小核”,這些“小核”可以類比成獵鷹火箭多臺(tái)發(fā)動(dòng)機(jī),開發(fā)者可以憑借CUDA多年積累的算子庫,平穩(wěn)、高效且靈活地調(diào)用這些小核用于并行計(jì)算。但如果下游模型相對(duì)確定,計(jì)算任務(wù)就是相對(duì)確定的,不需要那么多小核來保持靈活性,ASIC最底層的原理正是如此,所以也被稱為全定制化高算力芯片。通過 “手術(shù)刀式”精準(zhǔn)裁剪,僅保留與目標(biāo)場景強(qiáng)相關(guān)的硬件單元,釋放出驚人的效率,這在谷歌、亞馬遜都已經(jīng)在產(chǎn)品上得到了驗(yàn)證。
谷歌TPU v5e AI加速器實(shí)拍對(duì)于GPU來說,調(diào)用它們最好的工具是英偉達(dá)的CUDA,而對(duì)于ASIC芯片,調(diào)用它們的是云廠商自研的算法,這對(duì)于軟件起家的大廠來說,并不是什么難事:
●谷歌TPU v4中,95%的晶體管資源用于矩陣乘法單元和向量處理單元,專為神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化,而GPU中類似單元的占比不足60%。
●不同于傳統(tǒng)馮·諾依曼架構(gòu)的“計(jì)算-存儲(chǔ)”分離模式,ASIC可圍繞算法特征定制數(shù)據(jù)流。例如在博通為Meta定制的推薦系統(tǒng)芯片中,計(jì)算單元直接嵌入存儲(chǔ)控制器周圍,數(shù)據(jù)移動(dòng)距離縮短70%,延遲降低至GPU的1/8。
●針對(duì)AI模型中50%-90%的權(quán)重稀疏特性,亞馬遜Trainium2芯片嵌入稀疏計(jì)算引擎,可跳過零值計(jì)算環(huán)節(jié),理論性能提升300%。當(dāng)算法趨于固定,對(duì)于確定性的垂直場景,ASIC就是具有天然的優(yōu)勢(shì),ASIC設(shè)計(jì)的終極目標(biāo)是讓芯片本身成為算法的“物理化身”。
在過去的歷史和正在發(fā)生的現(xiàn)實(shí)中,我們都能夠找到ASIC成功的力證,比如礦機(jī)芯片。早期,行業(yè)都是用英偉達(dá)的GPU挖礦,后期隨著挖礦難度提升,電力消耗超過挖礦收益(非常類似現(xiàn)在的推理需求),挖礦專用ASIC芯片爆發(fā)。雖然通用性遠(yuǎn)不如GPU,但礦機(jī)ASIC將并行度極致化。例如,比特大陸的比特幣礦機(jī)ASIC,同時(shí)部署數(shù)萬個(gè)SHA-256哈希計(jì)算單元,實(shí)現(xiàn)單一算法下的超線性加速,算力密度達(dá)到GPU的1000倍以上。
不僅專用能力大幅提升,而且能耗實(shí)現(xiàn)了系統(tǒng)級(jí)節(jié)省。此外,使用ASIC可精簡外圍電路(如不再需要PCIe接口的復(fù)雜協(xié)議棧),主板面積減少40%,整機(jī)成本下降25%。低成本、高效率,支持硬件與場景深度咬合,這些ASIC技術(shù)內(nèi)核,天然適配AI產(chǎn)業(yè)從“暴力堆算力”到“精細(xì)化效率革命”的轉(zhuǎn)型需求。隨著推理時(shí)代的到來,ASIC成本優(yōu)勢(shì)將重演礦機(jī)的歷史,實(shí)現(xiàn)規(guī)模效應(yīng)下的“死亡交叉”——盡管初期研發(fā)成本高昂(單芯片設(shè)計(jì)費(fèi)用約5000萬美元),但其邊際成本下降曲線遠(yuǎn)陡于通用GPU。
以谷歌TPU v4為例,當(dāng)出貨量從10萬片增至100萬片時(shí),單顆成本從3800美元驟降至1200美元,降幅接近70%,而GPU的成本降幅通常不超過30%。根據(jù)產(chǎn)業(yè)鏈最新信息,谷歌TPU v6預(yù)計(jì)2025年出貨160萬片,單片算力較前代提升3倍,ASIC的性價(jià)比,還在快速提升。這又引申出一個(gè)新的話題,是否所有人都可以涌入自研ASIC大潮中去?這取決于自研成本與需求量。按照7nm工藝的ASIC推理加速卡來計(jì)算,涉及IP授權(quán)費(fèi)用、人力成本、設(shè)計(jì)工具、掩模板在內(nèi)的一次流片費(fèi)用等,量級(jí)可能就在億元的級(jí)別,還不包括后期的量產(chǎn)成本。在這方面,大廠更具有資金優(yōu)勢(shì)。
目前,像谷歌、亞馬遜這樣的云廠商,因?yàn)橛谐墒斓目蛻趔w系,能夠形成研發(fā)、銷售閉環(huán),自研上擁有先天的優(yōu)勢(shì)。Meta這種企業(yè),自研的邏輯則在于內(nèi)部本身就有天量級(jí)的算力需求。今年初,扎克伯格就曾透露,計(jì)劃在2025年上線約1GW的計(jì)算能力,并在年底前擁有超過130萬張GPU。
03“新地圖”價(jià)值遠(yuǎn)不止1000億美元
僅僅是挖礦需求就帶來了近100億美元的市場,所以當(dāng)博通2024年底喊出AI ASIC市場空間700-900億美元的時(shí)候,我們并不意外,甚至認(rèn)為可能這個(gè)數(shù)字都保守了,F(xiàn)在,ASIC芯片的產(chǎn)業(yè)趨勢(shì)不應(yīng)當(dāng)再被質(zhì)疑,重點(diǎn)應(yīng)該是如何掌握“新地圖”的博弈法則。近千億美元的AI ASIC市場中,已經(jīng)形成清晰的三大梯隊(duì)——“制定規(guī)則的ASIC芯片設(shè)計(jì)者和制造者” 、“產(chǎn)業(yè)鏈配套”、“垂直場景下的Fabless”。
第一梯隊(duì),是制定規(guī)則的ASIC芯片設(shè)計(jì)者和制造者,他們可以制造單價(jià)超過1萬美元的ASIC芯片,并與下游的云廠商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什么先進(jìn)芯片都會(huì)受益的代工王者——臺(tái)積電。第二梯隊(duì),產(chǎn)業(yè)鏈配套,已經(jīng)被市場關(guān)注到的配套邏輯包括先進(jìn)封裝與更下游的產(chǎn)業(yè)鏈。
●先進(jìn)封裝:臺(tái)積電CoWoS產(chǎn)能的35%已轉(zhuǎn)向ASIC客戶,國產(chǎn)對(duì)應(yīng)的中芯國際、長電科技、通富微電等。
●云廠商英偉達(dá)硬件方案解耦帶來的新硬件機(jī)會(huì):如AEC銅纜,亞馬遜自研單顆ASIC需配3根AEC,若2027年ASIC出貨700萬顆,對(duì)應(yīng)市場超50億美元,其他還包括服務(wù)器、PCB均是受益于相似邏輯。
第三梯隊(duì),是正在醞釀的垂直場景的Fabless。ASIC的本質(zhì)是需求驅(qū)動(dòng)型市場,誰能最先捕捉到場景痛點(diǎn),誰就掌握定價(jià)權(quán)。ASIC的基因就是定制化,與垂直場景天然適配。以智駕芯片為例,作為典型的ASIC芯片,隨著比亞迪等All in智駕,這類產(chǎn)品開始進(jìn)入爆發(fā)期。映射全球ASIC產(chǎn)業(yè)鏈三大梯隊(duì)對(duì)應(yīng)的機(jī)會(huì),可以看作是國產(chǎn)的“三把秘鑰”。
受制于禁令的限制,國產(chǎn)GPU與英偉達(dá)的差距仍然巨大,生態(tài)建設(shè)也是一個(gè)漫長的路程,但是對(duì)于ASIC,我們甚至與海外在同一起跑線上,再結(jié)合垂直場景,中國不少Fabless能夠做出更有能效比的產(chǎn)品,前面提及的礦機(jī)ASIC、智駕ASIC以及阿里平頭哥的含光、百度的昆侖芯這些AI ASIC。與之配套的芯片制造,主要依賴中芯國際,中興旗下的中興微等則是新入場的“玩家”,不排除未來他們將與國內(nèi)廠商合作,上演一場“誰將是中國博通”的戲碼。
左圖為英偉達(dá)主要上游供應(yīng)商,來源Fubon Research ,右圖GB200 NV72L
機(jī)柜的總長接近2英里的NVlink Spine銅纜產(chǎn)業(yè)鏈配套部分難度相對(duì)較低,對(duì)應(yīng)的服務(wù)器、光模塊、交換機(jī)、PCB、銅纜,由于技術(shù)難度低,國內(nèi)企業(yè)本來競爭力就比較強(qiáng)。與此同時(shí),這些產(chǎn)業(yè)鏈企業(yè)與國產(chǎn)算力屬于“共生”關(guān)系,ASIC芯片產(chǎn)業(yè)鏈也不會(huì)缺席。應(yīng)用場景上,除了反復(fù)提及的智駕芯片和AI推理加速卡,其他國產(chǎn)設(shè)計(jì)公司的機(jī)會(huì),取決于什么場景能爆發(fā),對(duì)應(yīng)哪些公司又能把握住機(jī)遇。
04結(jié)語
當(dāng)AI從大力出奇跡的訓(xùn)練軍備競賽,躍進(jìn)推理追求能效的深水區(qū),算力戰(zhàn)爭的下半場注定屬于那些能將技術(shù)狂想,轉(zhuǎn)化為經(jīng)濟(jì)賬本的公司。ASIC芯片的逆襲,不僅是一場技術(shù)革命,更是一本關(guān)于效率、成本和話語權(quán)的商業(yè)啟示錄。在這場新的牌局中,中國選手的籌碼正在悄然增加——機(jī)會(huì)永遠(yuǎn)留給準(zhǔn)備好的人。
原文標(biāo)題 : DeepSeek掀起算力革命,英偉達(dá)挑戰(zhàn)加劇,ASIC芯片悄然崛起

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?