訂閱
糾錯(cuò)
加入自媒體

深度丨梁文鋒署名論文發(fā)布,DeepSeek用mHC新架構(gòu)“秀肌肉”

前言

2026年新年第一天,arXiv上一篇題為《mHC:Manifold-ConstrainedHyper-Connections流形約束超連接)》的論文。

與以往技術(shù)發(fā)布不同,這篇論文不僅提出一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),而且特別有意思的是其創(chuàng)始人兼CEO梁文鋒親自出現(xiàn)在作者名單之中。

十年基石:殘差連接如何成為AI的[定海神針]

要理解mHC的革命性意義,必須先回溯深度學(xué)習(xí)的一段關(guān)鍵歷史。

2015年之前,神經(jīng)網(wǎng)絡(luò)領(lǐng)域存在一個(gè)致命悖論。理論上模型層數(shù)越深,擬合復(fù)雜函數(shù)的能力越強(qiáng),但實(shí)際訓(xùn)練中,層數(shù)超過(guò)幾十層就會(huì)出現(xiàn)梯度消失或爆炸,導(dǎo)致模型完全無(wú)法收斂。

當(dāng)時(shí)在微軟亞洲研究院的何愷明、張祥雨團(tuán)隊(duì),用殘差連接(Residual Connection)打破了僵局,其核心公式簡(jiǎn)單到令人驚嘆:y=x+F(x)。

就是這短短一個(gè)公式,讓訓(xùn)練上千層的深度網(wǎng)絡(luò)成為可能,也為后來(lái)的Transformer架構(gòu)奠定了基礎(chǔ),那篇?dú)埐钫撐闹两袢允茿I史上引用量最高的成果之一。

殘差連接的智慧,在于它為信息傳遞開(kāi)辟了一條[應(yīng)急車(chē)道]

如果把深度神經(jīng)網(wǎng)絡(luò)比作一座層層加工的工廠,傳統(tǒng)架構(gòu)中,輸入信息x必須經(jīng)過(guò)每一層的復(fù)雜變換f(x)才能到達(dá)輸出端。

就像所有物料都要經(jīng)過(guò)每條生產(chǎn)線(xiàn)的加工,一旦某道工序出現(xiàn)偏差,后續(xù)就會(huì)[差之毫厘,失之千里]。

而殘差連接的x項(xiàng),相當(dāng)于在工廠里修了一條直達(dá)傳送帶,讓部分信息不經(jīng)過(guò)任何加工直接傳遞到下游。

這種設(shè)計(jì)的本質(zhì)是嵌入了[恒等映射](Identity Mapping),哪怕中間的變換函數(shù)F(x)學(xué)得一塌糊涂,x這條直通路徑也能把信號(hào)和梯度完整地送到深層,確保網(wǎng)絡(luò)不會(huì)[越算越跑偏]。

就像雕塑大師把創(chuàng)作從[直接塑形]變成[去除多余石料],殘差網(wǎng)絡(luò)讓每一層只需要學(xué)習(xí)增量變化,剩下的交給恒等映射兜底。

這一設(shè)計(jì)成為了深度學(xué)習(xí)的[定海神針],從2017年Transformer問(wèn)世,到GPT、Llama、DeepSeek等主流大模型,幾乎所有深度神經(jīng)網(wǎng)絡(luò)都把殘差連接當(dāng)作標(biāo)配。

十年間,模型參數(shù)從百萬(wàn)級(jí)增長(zhǎng)到萬(wàn)億級(jí),層數(shù)從幾十層堆疊到上千層,但殘差連接的核心邏輯始終未變。

它證明了:讓網(wǎng)絡(luò)[可以很深]的關(guān)鍵,不是每層轉(zhuǎn)換多聰明,而是永遠(yuǎn)留一條[不作妖]的直達(dá)通路。

單車(chē)道不夠用了:HC的革新與失控

隨著大模型規(guī)模持續(xù)擴(kuò)張,研究者們開(kāi)始不滿(mǎn)足于殘差連接的[單車(chē)道]設(shè)計(jì)。

如果把殘差流比作高速公路的主干線(xiàn),當(dāng)車(chē)流量(信息吞吐量)越來(lái)越大,單車(chē)道的通行能力早晚會(huì)觸達(dá)瓶頸。

2024年9月,字節(jié)跳動(dòng)發(fā)表的Hyper-Connections(超連接,簡(jiǎn)稱(chēng)HC)論文,正是這一思路的落地。

HC的核心設(shè)計(jì)堪稱(chēng)大膽,將原本的殘差流寬度從C擴(kuò)展到n×C,相當(dāng)于把單車(chē)道擴(kuò)建成n條并行車(chē)道,同時(shí)引入可學(xué)習(xí)的混合矩陣,讓各車(chē)道的信息在每一層重新路由、融合。

實(shí)驗(yàn)結(jié)果令人振奮,多車(chē)道設(shè)計(jì)讓信息交互更充分,模型表達(dá)力顯著提升,在混合專(zhuān)家(MoE)模型上甚至實(shí)現(xiàn)了1.8倍的收斂加速。

就像把單股線(xiàn)織毛衣改成多股線(xiàn),織出的[毛衣](模型)不僅更結(jié)實(shí),還能呈現(xiàn)更復(fù)雜的[花紋](特征表達(dá))。

但狂歡之下,隱患悄然滋生。HC看似完美的設(shè)計(jì),隱藏著一個(gè)致命缺陷:它拆掉了殘差連接恒等映射的守恒特性。

殘差連接之所以穩(wěn)定,是因?yàn)閤項(xiàng)的恒等映射天然具備[能量守恒],輸入信號(hào)不會(huì)被隨意放大或衰減。

而HC的混合矩陣是完全自由學(xué)習(xí)的,沒(méi)有任何約束,跨多層之后就變成了一串矩陣連乘。

這種無(wú)約束設(shè)計(jì),在大規(guī)模訓(xùn)練中會(huì)引發(fā)災(zāi)難性的[放大器效應(yīng)],如果某幾層學(xué)到的[殘差]在某些方向上略大于1,經(jīng)過(guò)幾十層、上百層的復(fù)合后,增長(zhǎng)會(huì)呈指數(shù)級(jí)積累。

DeepSeek的實(shí)驗(yàn)數(shù)據(jù)顯示,HC架構(gòu)中,信號(hào)最大放大倍數(shù)能逼近3000倍,直接導(dǎo)致兩種訓(xùn)練災(zāi)難:要么信號(hào)爆炸、梯度爆炸,要么梯度消失,最終模型訓(xùn)練崩盤(pán)。

更棘手的是,HC的多車(chē)道設(shè)計(jì)還帶來(lái)了巨大的工程開(kāi)銷(xiāo)并行通道的增加讓GPU內(nèi)存占用和通信帶寬需求急劇上升,進(jìn)一步限制了其在更大規(guī)模模型中的應(yīng)用。

這就像把單車(chē)道擴(kuò)建成多車(chē)道后,沒(méi)有制定任何交通規(guī)則,結(jié)果不僅車(chē)流量沒(méi)提升,反而引發(fā)了連環(huán)車(chē)禍,還讓道路維護(hù)成本飆升。

HC的困境揭示了一個(gè)深刻矛盾大模型要提升表達(dá)力,就需要更復(fù)雜的拓?fù)浣Y(jié)構(gòu)和更多的連接通道;但連接越多、自由度越高,就越難維持訓(xùn)練的穩(wěn)定性。

這道穩(wěn)定性與表達(dá)力的選擇題,成為了大模型架構(gòu)演進(jìn)的核心瓶頸。

mHC破局:給自由的連接套上[數(shù)學(xué)護(hù)欄]

面對(duì)HC的困境,DeepSeek團(tuán)隊(duì)給出的解決方案mHC(流形約束超連接)其核心思想可以用一句話(huà)概括:你可以修立交橋、擴(kuò)多車(chē)道,但必須給交通流制定嚴(yán)格的守恒規(guī)則。

這個(gè)規(guī)則的數(shù)學(xué)載體,就是[雙隨機(jī)矩陣](Doubly Stochastic Matrix)。

簡(jiǎn)單來(lái)說(shuō),雙隨機(jī)矩陣需要滿(mǎn)足兩個(gè)硬性條件:一是所有元素非負(fù);二是每一行的元素和為1,每一列的元素和也為1。正是這兩個(gè)約束,讓失控的HC重新找回了穩(wěn)定性。

雙隨機(jī)矩陣:重塑恒等映射的守恒性

雙隨機(jī)矩陣的魔力,在于它為信息傳遞建立了[能量守恒]機(jī)制。當(dāng)殘差映射矩陣被約束為雙隨機(jī)矩陣時(shí),輸出信號(hào)本質(zhì)上是輸入特征的[加權(quán)混合]。

權(quán)重總和始終為1,就像把一杯水倒入多個(gè)杯子再重新混合,總水量不會(huì)憑空增加或減少這種設(shè)計(jì)帶來(lái)了關(guān)鍵保障。

用通俗的比喻來(lái)說(shuō),mHC就像給多車(chē)道高速公路制定了完善的交通規(guī)則:車(chē)輛可以自由換道,但總車(chē)流不能憑空增減,車(chē)速不能超過(guò)上限,從而避免了擁堵和事故。

更巧妙的是,mHC還對(duì)前后殘差引入了非負(fù)約束(通過(guò)sigmoid函數(shù)實(shí)現(xiàn)),避免了正負(fù)系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消,進(jìn)一步保障了信號(hào)傳遞的完整性。

Sinkhorn-Knopp算法:把[野矩陣]馴化成[乖矩陣]

要將自由學(xué)習(xí)的混合矩陣約束為雙隨機(jī)矩陣,需要[流形約束]這個(gè)關(guān)鍵的實(shí)現(xiàn)步驟。

DeepSeek采用了經(jīng)典的Sinkhorn-Knopp算法,這個(gè)過(guò)程就像一個(gè)[訓(xùn)練營(yíng)],無(wú)論原始矩陣多么[放飛自我],經(jīng)過(guò)訓(xùn)練后都必須遵守[行列守恒]的硬紀(jì)律。

算法的核心流程十分簡(jiǎn)潔:先讓矩陣所有元素變成嚴(yán)格正數(shù);反復(fù)交替進(jìn)行行歸一化(讓每一行和為1)和列歸一化(讓每一列和為1);迭代幾次后,矩陣會(huì)收斂到雙隨機(jī)結(jié)構(gòu)。

論文實(shí)驗(yàn)表明,僅需3次迭代就能達(dá)到足夠精度,而且整個(gè)過(guò)程完全可微分,支持端到端訓(xùn)練,不會(huì)給模型優(yōu)化帶來(lái)額外負(fù)擔(dān)。

這里的[流形](manifold)可以理解為一個(gè)特定形狀的光滑空間DeepSeek沒(méi)有讓參數(shù)在整個(gè)歐氏空間亂跑,而是把它限制在一個(gè)有幾何結(jié)構(gòu)的可行集合里,確保每一步更新都不偏離守恒軌道。

這種設(shè)計(jì)的優(yōu)雅之處在于,它沒(méi)有引入任何新的超參數(shù),也沒(méi)有降低模型的表達(dá)能力,只是給原本自由的權(quán)重矩陣套上了一個(gè)數(shù)學(xué)上可證明的[安全邊界]。

這種設(shè)計(jì)從理論上解決了一個(gè)長(zhǎng)期困擾產(chǎn)業(yè)界與學(xué)術(shù)界的問(wèn)題:如何讓更復(fù)雜的信息通路在不犧牲訓(xùn)練穩(wěn)定性和可擴(kuò)展性的前提下發(fā)揮效能?

傳統(tǒng)方法往往在性能與穩(wěn)定性之間做取舍,而mHC嘗試通過(guò)數(shù)學(xué)約束實(shí)現(xiàn)雙贏。

硬核工程:6.7%開(kāi)銷(xiāo)的背后,是重寫(xiě)底層的勇氣

mHC的多車(chē)道設(shè)計(jì)和雙隨機(jī)矩陣計(jì)算,涉及大量分散的矩陣運(yùn)算和歸一化操作。

如果按常規(guī)方式執(zhí)行,會(huì)產(chǎn)生頻繁的內(nèi)存訪問(wèn),嚴(yán)重拖慢訓(xùn)練速度。

DeepSeek團(tuán)隊(duì)沒(méi)有調(diào)用現(xiàn)成的庫(kù),而是基于TileLang框架手寫(xiě)了底層CUDA內(nèi)核代碼,將多個(gè)分散的操作合并成一個(gè)融合內(nèi)核。

這種優(yōu)化就像把原本需要多次往返的快遞,合并成一次批量配送減少了內(nèi)存訪問(wèn)次數(shù),提升了數(shù)據(jù)locality,僅這一項(xiàng)優(yōu)化就帶來(lái)了22%的帶寬提升。

針對(duì)Sinkhorn-Knopp算法,團(tuán)隊(duì)還設(shè)計(jì)了專(zhuān)門(mén)的前向和反向內(nèi)核,在芯片上重新計(jì)算中間結(jié)果,避免了額外的存儲(chǔ)開(kāi)銷(xiāo)。

大模型訓(xùn)練中,激活值的存儲(chǔ)是內(nèi)存占用的主要來(lái)源之一。

mHC的多車(chē)道設(shè)計(jì)會(huì)讓激活值規(guī)模成倍增加,為了解決這個(gè)問(wèn)題,DeepSeek采用了選擇性重計(jì)算策略在反向傳播時(shí),不存儲(chǔ)所有中間激活值,而是選擇性地重新計(jì)算部分結(jié)果。

這種策略看似增加了少量計(jì)算量,但大幅降低了內(nèi)存占用,實(shí)驗(yàn)顯示內(nèi)存消耗降低了40%。

在多卡并行訓(xùn)練中,設(shè)備間的通信延遲往往是性能瓶頸。

DeepSeek擴(kuò)展了DualPipe調(diào)度策略,通過(guò)將MLP層的特定內(nèi)核放在高優(yōu)先級(jí)計(jì)算流上執(zhí)行,讓計(jì)算任務(wù)與設(shè)備間的通信任務(wù)并行進(jìn)行

當(dāng)一張GPU在發(fā)送數(shù)據(jù)時(shí),另一張GPU已經(jīng)在執(zhí)行計(jì)算,不會(huì)出現(xiàn)[閑等]的情況。

這套組合拳下來(lái),mHC在擴(kuò)展系數(shù)n=4(即4條并行殘差流)時(shí),內(nèi)部實(shí)測(cè)的額外訓(xùn)練時(shí)間開(kāi)銷(xiāo)僅為6.7%。

mHC作為擴(kuò)展性設(shè)計(jì),有望在以下多個(gè)層面帶來(lái)影響:

大規(guī)模LLM訓(xùn)練穩(wěn)定性:可以提升深層網(wǎng)絡(luò)擴(kuò)展規(guī)模的可控性

低成本訓(xùn)練策略:通過(guò)架構(gòu)優(yōu)化減少訓(xùn)練失敗和資源浪費(fèi)。

生態(tài)共享:若該架構(gòu)開(kāi)源并被主流框架采納,將推動(dòng)整個(gè)社區(qū)對(duì)新連接機(jī)制的探索。

十年基石:殘差連接如何成為AI的[定海神針]

DeepSeek過(guò)去通過(guò)開(kāi)源策略成功將自己置于全球技術(shù)對(duì)話(huà)中;這一次通過(guò)架構(gòu)創(chuàng)新進(jìn)一步強(qiáng)化其技術(shù)品牌。

mHC既是一個(gè)具體的架構(gòu)創(chuàng)新,也代表著DeepSeek在人工智能基礎(chǔ)架構(gòu)領(lǐng)域的更高目標(biāo),推動(dòng)整個(gè)行業(yè)對(duì)于訓(xùn)練穩(wěn)定性與可擴(kuò)展性問(wèn)題的重新思考。

未來(lái)幾個(gè)月,這種思想能否轉(zhuǎn)化為即將發(fā)布的R2模型甚至更大規(guī)模的實(shí)際產(chǎn)品性能優(yōu)勢(shì),將是真正的檢驗(yàn)。

但在AI競(jìng)爭(zhēng)愈發(fā)激烈的今天,每一個(gè)早期且可能改變游戲規(guī)則的架構(gòu)創(chuàng)新,都值得我們?nèi)ド钊虢庾x與持續(xù)關(guān)注。

部分資料參考:騰訊科技:《梁文鋒帶隊(duì)DeepSeek,重置深度神經(jīng)網(wǎng)絡(luò)最底層的“定海神針”》,頭部科技:《下一代模型呼之欲出?!DeepSeek的新年禮物mHC是個(gè)啥?》,硅星人Pro:《梁文鋒DeepSeek新論文!接棒何愷明和字節(jié),又穩(wěn)了穩(wěn)AI的“地基”》,科技最前線(xiàn):《一篇論文,解決大模型“越聰明越容易崩”的死結(jié)》

       原文標(biāo)題 : 深度丨梁文鋒署名論文發(fā)布,DeepSeek用mHC新架構(gòu)“秀肌肉”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)