訂閱
糾錯(cuò)
加入自媒體

2026,國(guó)產(chǎn)AI芯片,跨越天塹:從“推理”走向“訓(xùn)練”

圖片

過(guò)去幾年,國(guó)產(chǎn)AI芯片始終活躍在一個(gè)相對(duì)安全、也相對(duì)邊緣的位置——推理側(cè)。

在政務(wù)、金融、安防、工業(yè)質(zhì)檢等場(chǎng)景中,國(guó)產(chǎn)芯片憑借成本可控、供應(yīng)穩(wěn)定等優(yōu)勢(shì),逐步完成了從“可用”到“好用”的過(guò)程。但在AI訓(xùn)練這一算力金字塔頂端,國(guó)產(chǎn)芯片長(zhǎng)期缺席,或者只能參與邊緣性任務(wù)。

這一格局,正在發(fā)生改變。2026年,將成為“國(guó)產(chǎn)AI芯片訓(xùn)練落地元年”。但這一步,絕非簡(jiǎn)單升級(jí),而是一場(chǎng)系統(tǒng)工程級(jí)別的跨越。

01

訓(xùn)練與推理有何區(qū)別?

在大眾語(yǔ)境中,“AI算力”往往被視作一個(gè)整體,但在工程實(shí)踐中,訓(xùn)練與推理幾乎是兩種完全不同的工作負(fù)載。

訓(xùn)練的核心是讓AI模型“學(xué)會(huì)知識(shí)”,具體而言,是通過(guò)海量帶標(biāo)簽樣本,經(jīng)過(guò)特定算法迭代,求解出機(jī)器學(xué)習(xí)模型最優(yōu)參數(shù)的過(guò)程。這一階段需要海量數(shù)據(jù)的持續(xù)投喂、數(shù)十億至萬(wàn)億級(jí)參數(shù)的動(dòng)態(tài)更新,以及數(shù)周乃至數(shù)月的不間斷運(yùn)行,追求的是吞吐量與規(guī);\(yùn)算效率。

這意味著訓(xùn)練芯片不僅要具備強(qiáng)悍的算力,還需配備極高的顯存帶寬、高效的分布式通信能力,以及萬(wàn)卡級(jí)集群規(guī)模下的穩(wěn)定性。訓(xùn)練過(guò)程可進(jìn)一步細(xì)分為預(yù)訓(xùn)練與后訓(xùn)練兩個(gè)階段:預(yù)訓(xùn)練依托海量無(wú)標(biāo)注或弱標(biāo)注數(shù)據(jù),通過(guò)大規(guī)模反復(fù)迭代計(jì)算優(yōu)化模型參數(shù),最小化預(yù)測(cè)誤差,最終形成具備通用生成能力的基礎(chǔ)大模型,對(duì)芯片的計(jì)算性能、互連通信能力及通用性提出極高要求;后訓(xùn)練又稱微調(diào)、優(yōu)化階段,基于通用大模型,借助標(biāo)注專業(yè)數(shù)據(jù)集對(duì)輸出層參數(shù)進(jìn)行量化、剪枝等優(yōu)化,通過(guò)強(qiáng)化學(xué)習(xí)強(qiáng)化特定領(lǐng)域適配能力,雖計(jì)算量不及預(yù)訓(xùn)練,但隨著行業(yè)化需求提升,其在全流程中的權(quán)重正持續(xù)增加。

與訓(xùn)練形成鮮明對(duì)比,推理是模型“運(yùn)用知識(shí)”的階段,需要依托已訓(xùn)練完成的模型參數(shù),對(duì)新輸入數(shù)據(jù)進(jìn)行預(yù)測(cè)、生成響應(yīng),是AI技術(shù)落地解決實(shí)際問(wèn)題的核心環(huán)節(jié)。相較于訓(xùn)練,推理更側(cè)重速度、能效比、響應(yīng)延遲與成本控制,其部署場(chǎng)景覆蓋云服務(wù)、邊緣節(jié)點(diǎn)乃至終端設(shè)備,對(duì)穩(wěn)定性與能效比的訴求遠(yuǎn)高于峰值算力。這種特性使得推理過(guò)程無(wú)需經(jīng)歷漫長(zhǎng)的迭代訓(xùn)練,可直接調(diào)用成熟模型完成分析預(yù)測(cè),在海量數(shù)據(jù)處理與實(shí)時(shí)響應(yīng)場(chǎng)景中具備顯著高效性。

大模型的發(fā)展遵循Scaling Law的經(jīng)驗(yàn)公式,即模型參數(shù)量、數(shù)據(jù)量以及計(jì)算資源的增長(zhǎng)能得到更好的模型智能。在通用基礎(chǔ)大模型發(fā)展階段,大模型向更大參數(shù)方向不斷演化,預(yù)訓(xùn)練階段的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),GPU作為算力硬件的核心在預(yù)訓(xùn)練市場(chǎng)經(jīng)歷了爆發(fā)增長(zhǎng)。根據(jù)中國(guó)信通院《中國(guó)算力發(fā)展白皮書(shū)(2023)》,GPT-3的模型參數(shù)約為1,746億個(gè),而GPT-4的模型參數(shù)約達(dá)到了約1.8萬(wàn)億個(gè),訓(xùn)練算力需求上升了68倍。此外,xAI發(fā)布的Grok-3使用20萬(wàn)卡訓(xùn)練芯片集群帶來(lái)模型性能提升亦證明了預(yù)訓(xùn)練Scaling Law將長(zhǎng)期成為人工智能發(fā)展的基石。

更值得關(guān)注的是,訓(xùn)練算力存在“邊際效益遞減”的天花板。對(duì)于稠密架構(gòu)大模型,當(dāng)參數(shù)從千億級(jí)向萬(wàn)億級(jí)跨越時(shí),算力需求呈超線性增長(zhǎng),指數(shù)級(jí)攀升的成本壓力,讓從頭訓(xùn)練大模型成為少數(shù)科技巨頭的“專屬游戲”。

憑借高算力門檻,國(guó)際領(lǐng)先廠商英偉達(dá)的產(chǎn)品一直以來(lái)都是人工智能訓(xùn)練端的首選,占據(jù)了AI訓(xùn)練市場(chǎng)90%以上份額,其Blackwell架構(gòu)支持1.8萬(wàn)億參數(shù)模型訓(xùn)練,且NVLink 6技術(shù)實(shí)現(xiàn)72卡集群無(wú)縫互聯(lián)。而推理端(尤其是邊緣端、終端推理)對(duì)芯片性能要求較訓(xùn)練端低,因此推理芯片市場(chǎng)百花齊放,各類芯片均占有一席之地。

由于中國(guó)AI芯片市場(chǎng)起步較晚,國(guó)產(chǎn)廠商通常從門檻相對(duì)較低的推理端切入市場(chǎng),目前已取得階段性成果;而訓(xùn)練端的國(guó)產(chǎn)化率仍相對(duì)較低。在海外高性能芯片出口管制不斷升級(jí)的背景下,擁有高性能計(jì)算能力、產(chǎn)品可有效應(yīng)用于訓(xùn)練端的國(guó)產(chǎn)廠商將充分受益。

02

國(guó)產(chǎn)算力走向訓(xùn)練,難在那里?

從“能推理”到“能訓(xùn)練”,表面看是性能維度的小幅提升,實(shí)則是跨越全技術(shù)棧的深度重構(gòu),核心面臨技術(shù)突破與商業(yè)閉環(huán)兩大挑戰(zhàn),考驗(yàn)的是企業(yè)的綜合攻堅(jiān)能力。

技術(shù)層面,核心矛盾已從單一芯片的紙面參數(shù)競(jìng)爭(zhēng),轉(zhuǎn)向萬(wàn)卡級(jí)集群的互聯(lián)瓶頸突破,最終目標(biāo)是提升模型算力利用率(MFU)。硬件端,單卡性能的提升已無(wú)法滿足大規(guī)模訓(xùn)練需求,分布式并行成為必由之路——Scale Up通過(guò)增加單服務(wù)器GPU數(shù)量構(gòu)建超節(jié)點(diǎn),Scale Out通過(guò)擴(kuò)容服務(wù)器規(guī)模搭建分布式集群,谷歌、Meta、微軟等海外大廠已率先布局,如谷歌A3虛擬機(jī)搭載2.6萬(wàn)塊英偉達(dá)H100 GPU,同時(shí)基于自研芯片搭建8960卡TPUv5p集群,通過(guò)規(guī);簝(yōu)勢(shì)優(yōu)化服務(wù)架構(gòu)。而國(guó)產(chǎn)廠商雖在單卡性能上實(shí)現(xiàn)突破,但在集群協(xié)同能力上仍與海外存在差距。

軟件端,單純兼容CUDA生態(tài)的路徑在高強(qiáng)度訓(xùn)練場(chǎng)景中已暴露瓶頸,構(gòu)建原生、高效的自主軟件生態(tài)成為必然選擇。隨著大模型參數(shù)量與算法復(fù)雜度提升,訓(xùn)練任務(wù)對(duì)計(jì)算系統(tǒng)的通信能力要求持續(xù)升級(jí),千卡、萬(wàn)卡級(jí)智算集群成為標(biāo)配,而國(guó)內(nèi)具備完整訓(xùn)練芯片部署能力的廠商寥寥無(wú)幾。其中,華為海思憑借長(zhǎng)期技術(shù)積淀、全棧協(xié)同優(yōu)勢(shì)及豐富的人才與客戶儲(chǔ)備,在國(guó)產(chǎn)訓(xùn)練芯片領(lǐng)域建立了顯著領(lǐng)先地位。

技術(shù)之外,市場(chǎng)用最樸素的邏輯投票:穩(wěn)定性與總擁有成本(TCO),這兩大維度構(gòu)成了對(duì)國(guó)產(chǎn)訓(xùn)練芯片的核心拷問(wèn):

其一為應(yīng)用穩(wěn)定性,長(zhǎng)達(dá)數(shù)月的訓(xùn)練任務(wù)對(duì)芯片平均無(wú)故障時(shí)間(MTBF)提出極致要求,一次意外中斷就可能造成數(shù)百萬(wàn)沉沒(méi)成本。這也是當(dāng)前智算中心普遍采用“異構(gòu)部署”策略的核心原因——通過(guò)英偉達(dá)芯片保障核心基座模型的穩(wěn)定運(yùn)行,同時(shí)用國(guó)產(chǎn)芯片在垂類模型微調(diào)、推理等場(chǎng)景中迭代優(yōu)化、積累信任,推動(dòng)國(guó)產(chǎn)算力從“敢用”向“愿用”跨越,而實(shí)戰(zhàn)落地是唯一的破局路徑。

其二為產(chǎn)業(yè)體系升維?蛻糇罱K采購(gòu)的并非PetaFLOPS這類冰冷的性能參數(shù),而是穩(wěn)定高效的AI生產(chǎn)力。這要求國(guó)產(chǎn)廠商完成從“單一芯片供應(yīng)商”到“全棧算力解決方案服務(wù)商”的轉(zhuǎn)型,具備從供電、液冷等基礎(chǔ)設(shè)施到軟件調(diào)優(yōu)、運(yùn)維支持的全鏈條服務(wù)能力,交付一套高性能、高可靠的“算力動(dòng)力總成”。

03

國(guó)產(chǎn)AI芯片從推理走向訓(xùn)練

國(guó)產(chǎn)芯片在訓(xùn)練場(chǎng)景的落地,并非一蹴而就的爆發(fā),而是政策驅(qū)動(dòng)與技術(shù)迭代共同作用的結(jié)果,早在去年就已顯現(xiàn)端倪。2025年8月21日,DeepSeek曾表示,新版本采用了一項(xiàng)針對(duì)國(guó)產(chǎn)芯片而設(shè)計(jì)的技術(shù),能夠?qū)崿F(xiàn)性能優(yōu)化,并加快處理速度。

政策層面的支撐更為明確:2025年5月,美國(guó)BIS發(fā)布《關(guān)于可能適用于先進(jìn)計(jì)算芯片及其他用于訓(xùn)練AI模型商品的管制的政策聲明》《關(guān)于通用禁令10(GP10)對(duì)中華人民共和國(guó)(PRC)先進(jìn)計(jì)算芯片適用的指南》《關(guān)于防止先進(jìn)計(jì)算芯片轉(zhuǎn)移的行業(yè)指南》,從AI芯片的使用范圍、供應(yīng)鏈制裁等角度進(jìn)一步加強(qiáng)了對(duì)先進(jìn)AI芯片和相關(guān)技術(shù)的出口管制,將出口管制風(fēng)險(xiǎn)進(jìn)一步延伸至產(chǎn)業(yè)鏈的各個(gè)參與方。地緣政治倒逼相關(guān)國(guó)內(nèi)客戶使用國(guó)產(chǎn)GPU產(chǎn)品,在一定程度上幫助國(guó)產(chǎn)GPU廠商與國(guó)內(nèi)客戶和供應(yīng)商建立密切聯(lián)系,進(jìn)而快速實(shí)現(xiàn)技術(shù)和產(chǎn)品迭代升級(jí)。

而且近期,工信部聯(lián)合7部門出臺(tái)《“人工智能+制造”專項(xiàng)行動(dòng)實(shí)施意見(jiàn)》明確提出,支持突破高端訓(xùn)練芯片、端側(cè)推理芯片、人工智能服務(wù)器、高速互聯(lián)、智算云操作系統(tǒng)等關(guān)鍵技術(shù)。

多重因素疊加下,2026年成為國(guó)產(chǎn)AI芯片訓(xùn)練落地的關(guān)鍵元年。

圖片

今年以來(lái),一批基于國(guó)產(chǎn)芯片訓(xùn)練的AI大模型密集落地,標(biāo)志著國(guó)產(chǎn)算力在訓(xùn)練場(chǎng)景的實(shí)戰(zhàn)能力得到驗(yàn)證。

2026年1月14日,智譜聯(lián)合華為開(kāi)源新一代圖像生成模型GLM-Image,開(kāi)源后24小時(shí)內(nèi)登頂全球AI開(kāi)源社區(qū)Hugging Face Trending榜單榜首。該模型基于華為昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,完成從數(shù)據(jù)處理到模型訓(xùn)練的全流程閉環(huán),是首個(gè)依托國(guó)產(chǎn)芯片實(shí)現(xiàn)全程訓(xùn)練的SOTA(當(dāng)前最高水平)多模態(tài)模型,首次讓國(guó)產(chǎn)芯片訓(xùn)練的模型站上國(guó)際頂端舞臺(tái),印證了我國(guó)AI模型端到端自主研發(fā)能力的突破,引發(fā)全球AI圈、產(chǎn)業(yè)界與資本市場(chǎng)的廣泛關(guān)注。

1月13日,摩爾線程與北京智源人工智能研究院達(dá)成突破,依托MTT S5000千卡智算集群與FlagOS-Robo框架,成功完成智源自研具身大腦模型RoboBrain 2.5的全流程訓(xùn)練。這一成果首次驗(yàn)證了國(guó)產(chǎn)算力集群在具身智能大模型訓(xùn)練中的可用性與高效性,標(biāo)志著國(guó)產(chǎn)AI基礎(chǔ)設(shè)施已具備應(yīng)對(duì)復(fù)雜多模態(tài)任務(wù)的能力。此外,摩爾線程還與小馬智行正式宣布達(dá)成戰(zhàn)略合作。雙方將聚焦L4級(jí)自動(dòng)駕駛技術(shù)落地與規(guī)模化應(yīng)用,圍繞小馬智行技術(shù)核心——世界模型及虛擬司機(jī)系統(tǒng)的訓(xùn)練與優(yōu)化展開(kāi)深度協(xié)同,共同探索“AI算法+AI算力”深度融合的合作新范式,以安全可靠的AI算力,賦能自動(dòng)駕駛技術(shù)迭代和商業(yè)落地。雙方將基于摩爾線程MTT S5000訓(xùn)推一體智算卡及夸娥智算集群,共同推進(jìn)小馬智行世界模型及車端模型訓(xùn)練的適配與驗(yàn)證。

中國(guó)電信近期開(kāi)源的千億級(jí)星辰大模型,實(shí)現(xiàn)了國(guó)產(chǎn)AI全棧生態(tài)的關(guān)鍵突破。此次發(fā)布的TeleChat3系列包含兩大核心模型——混合專家架構(gòu)的TeleChat3-105B-A4.7B-Thinking與稠密架構(gòu)的TeleChat3-36B-Thinking,其訓(xùn)練全程依托上海臨港國(guó)產(chǎn)萬(wàn)卡算力池完成,累計(jì)消耗15萬(wàn)億tokens訓(xùn)練數(shù)據(jù),成為國(guó)產(chǎn)AI發(fā)展史上的里程碑事件。技術(shù)層面,該系列模型實(shí)現(xiàn)從硬件到軟件的全鏈路國(guó)產(chǎn)化適配,深度整合華為昇騰生態(tài),包括Atlas800T A2訓(xùn)練服務(wù)器的硬件支持、昇思MindSpore框架的開(kāi)發(fā)環(huán)境,以及完整的國(guó)產(chǎn)AI算力基礎(chǔ)設(shè)施支撐。

客觀來(lái)看,英偉達(dá)A100/H100/H800系列GPU仍是全球超大規(guī)模前沿模型(如DeepSeek-V3)訓(xùn)練的首選,但國(guó)產(chǎn)算力平臺(tái)已逐步實(shí)現(xiàn)突破,可穩(wěn)定支撐數(shù)十億至千億參數(shù)級(jí)模型的全流程訓(xùn)練任務(wù)。此前主流大模型高度依賴海外GPU的格局正在改變,供應(yīng)鏈安全風(fēng)險(xiǎn)得到有效緩解,國(guó)產(chǎn)AI芯片正從推理側(cè)的“單點(diǎn)突破”,邁向訓(xùn)練側(cè)的“體系化崛起”。

       原文標(biāo)題 : 2026,國(guó)產(chǎn)AI芯片,跨越天塹:從“推理”走向“訓(xùn)練”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)