123,123,123

_{<cite id="mbokc"></cite>}

<track id="mbokc"></track>

<address id="mbokc"></address>

<td id="mbokc"><dl id="mbokc"></dl></td>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

深度丨梁文鋒署名論文發(fā)布，DeepSeek用mHC新架構(gòu)“秀肌肉”

2026-01-07 16:39

前言：

2026年新年第一天，arXiv上一篇題為《mHC:Manifold-ConstrainedHyper-Connections（流形約束超連接）》的論文。

與以往技術(shù)發(fā)布不同，這篇論文不僅提出一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而且特別有意思的是其創(chuàng)始人兼CEO梁文鋒親自出現(xiàn)在作者名單之中。

十年基石：殘差連接如何成為AI的[定海神針]

要理解mHC的革命性意義，必須先回溯深度學(xué)習(xí)的一段關(guān)鍵歷史。

2015年之前，神經(jīng)網(wǎng)絡(luò)領(lǐng)域存在一個(gè)致命悖論。理論上模型層數(shù)越深，擬合復(fù)雜函數(shù)的能力越強(qiáng)，但實(shí)際訓(xùn)練中，層數(shù)超過(guò)幾十層就會(huì)出現(xiàn)梯度消失或爆炸，導(dǎo)致模型完全無(wú)法收斂。

當(dāng)時(shí)在微軟亞洲研究院的何愷明、張祥雨團(tuán)隊(duì)，用殘差連接（Residual Connection）打破了僵局，其核心公式簡(jiǎn)單到令人驚嘆：y=x+F(x)。

就是這短短一個(gè)公式，讓訓(xùn)練上千層的深度網(wǎng)絡(luò)成為可能，也為后來(lái)的Transformer架構(gòu)奠定了基礎(chǔ)，那篇?dú)埐钫撐闹两袢允茿I史上引用量最高的成果之一。

殘差連接的智慧，在于它為信息傳遞開(kāi)辟了一條[應(yīng)急車(chē)道]。

如果把深度神經(jīng)網(wǎng)絡(luò)比作一座層層加工的工廠，傳統(tǒng)架構(gòu)中，輸入信息x必須經(jīng)過(guò)每一層的復(fù)雜變換f(x)才能到達(dá)輸出端。

就像所有物料都要經(jīng)過(guò)每條生產(chǎn)線(xiàn)的加工，一旦某道工序出現(xiàn)偏差，后續(xù)就會(huì)[差之毫厘，失之千里]。

而殘差連接的x項(xiàng)，相當(dāng)于在工廠里修了一條直達(dá)傳送帶，讓部分信息不經(jīng)過(guò)任何加工直接傳遞到下游。

這種設(shè)計(jì)的本質(zhì)是嵌入了[恒等映射]（Identity Mapping），哪怕中間的變換函數(shù)F(x)學(xué)得一塌糊涂，x這條直通路徑也能把信號(hào)和梯度完整地送到深層，確保網(wǎng)絡(luò)不會(huì)[越算越跑偏]。

就像雕塑大師把創(chuàng)作從[直接塑形]變成[去除多余石料]，殘差網(wǎng)絡(luò)讓每一層只需要學(xué)習(xí)增量變化，剩下的交給恒等映射兜底。

這一設(shè)計(jì)成為了深度學(xué)習(xí)的[定海神針]，從2017年Transformer問(wèn)世，到GPT、Llama、DeepSeek等主流大模型，幾乎所有深度神經(jīng)網(wǎng)絡(luò)都把殘差連接當(dāng)作標(biāo)配。

十年間，模型參數(shù)從百萬(wàn)級(jí)增長(zhǎng)到萬(wàn)億級(jí)，層數(shù)從幾十層堆疊到上千層，但殘差連接的核心邏輯始終未變。

它證明了：讓網(wǎng)絡(luò)[可以很深]的關(guān)鍵，不是每層轉(zhuǎn)換多聰明，而是永遠(yuǎn)留一條[不作妖]的直達(dá)通路。

單車(chē)道不夠用了：HC的革新與失控

隨著大模型規(guī)模持續(xù)擴(kuò)張，研究者們開(kāi)始不滿(mǎn)足于殘差連接的[單車(chē)道]設(shè)計(jì)。

如果把殘差流比作高速公路的主干線(xiàn)，當(dāng)車(chē)流量（信息吞吐量）越來(lái)越大，單車(chē)道的通行能力早晚會(huì)觸達(dá)瓶頸。

2024年9月，字節(jié)跳動(dòng)發(fā)表的Hyper-Connections（超連接，簡(jiǎn)稱(chēng)HC）論文，正是這一思路的落地。

HC的核心設(shè)計(jì)堪稱(chēng)大膽，將原本的殘差流寬度從C擴(kuò)展到n×C，相當(dāng)于把單車(chē)道擴(kuò)建成n條并行車(chē)道，同時(shí)引入可學(xué)習(xí)的混合矩陣，讓各車(chē)道的信息在每一層重新路由、融合。

實(shí)驗(yàn)結(jié)果令人振奮，多車(chē)道設(shè)計(jì)讓信息交互更充分，模型表達(dá)力顯著提升，在混合專(zhuān)家（MoE）模型上甚至實(shí)現(xiàn)了1.8倍的收斂加速。

就像把單股線(xiàn)織毛衣改成多股線(xiàn)，織出的[毛衣]（模型）不僅更結(jié)實(shí)，還能呈現(xiàn)更復(fù)雜的[花紋]（特征表達(dá)）。

但狂歡之下，隱患悄然滋生。HC看似完美的設(shè)計(jì)，隱藏著一個(gè)致命缺陷：它拆掉了殘差連接中恒等映射的守恒特性。

殘差連接之所以穩(wěn)定，是因?yàn)閤項(xiàng)的恒等映射天然具備[能量守恒]，輸入信號(hào)不會(huì)被隨意放大或衰減。

而HC的混合矩陣是完全自由學(xué)習(xí)的，沒(méi)有任何約束，跨多層之后就變成了一串矩陣連乘。

這種無(wú)約束設(shè)計(jì)，在大規(guī)模訓(xùn)練中會(huì)引發(fā)災(zāi)難性的[放大器效應(yīng)]，如果某幾層學(xué)到的[殘差]在某些方向上略大于1，經(jīng)過(guò)幾十層、上百層的復(fù)合后，增長(zhǎng)會(huì)呈指數(shù)級(jí)積累。

DeepSeek的實(shí)驗(yàn)數(shù)據(jù)顯示，HC架構(gòu)中，信號(hào)最大放大倍數(shù)能逼近3000倍，直接導(dǎo)致兩種訓(xùn)練災(zāi)難：要么信號(hào)爆炸、梯度爆炸，要么梯度消失，最終模型訓(xùn)練崩盤(pán)。

更棘手的是，HC的多車(chē)道設(shè)計(jì)還帶來(lái)了巨大的工程開(kāi)銷(xiāo)，并行通道的增加讓GPU內(nèi)存占用和通信帶寬需求急劇上升，進(jìn)一步限制了其在更大規(guī)模模型中的應(yīng)用。

這就像把單車(chē)道擴(kuò)建成多車(chē)道后，沒(méi)有制定任何交通規(guī)則，結(jié)果不僅車(chē)流量沒(méi)提升，反而引發(fā)了連環(huán)車(chē)禍，還讓道路維護(hù)成本飆升。

HC的困境揭示了一個(gè)深刻矛盾，大模型要提升表達(dá)力，就需要更復(fù)雜的拓?fù)浣Y(jié)構(gòu)和更多的連接通道；但連接越多、自由度越高，就越難維持訓(xùn)練的穩(wěn)定性。

這道穩(wěn)定性與表達(dá)力的選擇題，成為了大模型架構(gòu)演進(jìn)的核心瓶頸。

mHC破局：給自由的連接套上[數(shù)學(xué)護(hù)欄]

面對(duì)HC的困境，DeepSeek團(tuán)隊(duì)給出的解決方案是mHC（流形約束超連接），其核心思想可以用一句話(huà)概括：你可以修立交橋、擴(kuò)多車(chē)道，但必須給交通流制定嚴(yán)格的守恒規(guī)則。

這個(gè)規(guī)則的數(shù)學(xué)載體，就是[雙隨機(jī)矩陣]（Doubly Stochastic Matrix）。

簡(jiǎn)單來(lái)說(shuō)，雙隨機(jī)矩陣需要滿(mǎn)足兩個(gè)硬性條件：一是所有元素非負(fù)；二是每一行的元素和為1，每一列的元素和也為1。正是這兩個(gè)約束，讓失控的HC重新找回了穩(wěn)定性。

①雙隨機(jī)矩陣：重塑恒等映射的守恒性

雙隨機(jī)矩陣的魔力，在于它為信息傳遞建立了[能量守恒]機(jī)制。當(dāng)殘差映射矩陣被約束為雙隨機(jī)矩陣時(shí)，輸出信號(hào)本質(zhì)上是輸入特征的[加權(quán)混合]。

權(quán)重總和始終為1，就像把一杯水倒入多個(gè)杯子再重新混合，總水量不會(huì)憑空增加或減少，這種設(shè)計(jì)帶來(lái)了關(guān)鍵保障。

用通俗的比喻來(lái)說(shuō)，mHC就像給多車(chē)道高速公路制定了完善的交通規(guī)則：車(chē)輛可以自由換道，但總車(chē)流不能憑空增減，車(chē)速不能超過(guò)上限，從而避免了擁堵和事故。

更巧妙的是，mHC還對(duì)前后殘差引入了非負(fù)約束（通過(guò)sigmoid函數(shù)實(shí)現(xiàn)），避免了正負(fù)系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消，進(jìn)一步保障了信號(hào)傳遞的完整性。

②Sinkhorn-Knopp算法：把[野矩陣]馴化成[乖矩陣]

要將自由學(xué)習(xí)的混合矩陣約束為雙隨機(jī)矩陣，需要[流形約束]這個(gè)關(guān)鍵的實(shí)現(xiàn)步驟。

DeepSeek采用了經(jīng)典的Sinkhorn-Knopp算法，這個(gè)過(guò)程就像一個(gè)[訓(xùn)練營(yíng)]，無(wú)論原始矩陣多么[放飛自我]，經(jīng)過(guò)訓(xùn)練后都必須遵守[行列守恒]的硬紀(jì)律。

算法的核心流程十分簡(jiǎn)潔：先讓矩陣所有元素變成嚴(yán)格正數(shù)；反復(fù)交替進(jìn)行行歸一化（讓每一行和為1）和列歸一化（讓每一列和為1）；迭代幾次后，矩陣會(huì)收斂到雙隨機(jī)結(jié)構(gòu)。

論文實(shí)驗(yàn)表明，僅需3次迭代就能達(dá)到足夠精度，而且整個(gè)過(guò)程完全可微分，支持端到端訓(xùn)練，不會(huì)給模型優(yōu)化帶來(lái)額外負(fù)擔(dān)。

這里的[流形]（manifold）可以理解為一個(gè)特定形狀的光滑空間，DeepSeek沒(méi)有讓參數(shù)在整個(gè)歐氏空間亂跑，而是把它限制在一個(gè)有幾何結(jié)構(gòu)的可行集合里，確保每一步更新都不偏離守恒軌道。

這種設(shè)計(jì)的優(yōu)雅之處在于，它沒(méi)有引入任何新的超參數(shù)，也沒(méi)有降低模型的表達(dá)能力，只是給原本自由的權(quán)重矩陣套上了一個(gè)數(shù)學(xué)上可證明的[安全邊界]。

這種設(shè)計(jì)從理論上解決了一個(gè)長(zhǎng)期困擾產(chǎn)業(yè)界與學(xué)術(shù)界的問(wèn)題：如何讓更復(fù)雜的信息通路在不犧牲訓(xùn)練穩(wěn)定性和可擴(kuò)展性的前提下發(fā)揮效能？

傳統(tǒng)方法往往在性能與穩(wěn)定性之間做取舍，而mHC嘗試通過(guò)數(shù)學(xué)約束實(shí)現(xiàn)雙贏。

硬核工程：6.7%開(kāi)銷(xiāo)的背后，是重寫(xiě)底層的勇氣

mHC的多車(chē)道設(shè)計(jì)和雙隨機(jī)矩陣計(jì)算，涉及大量分散的矩陣運(yùn)算和歸一化操作。

如果按常規(guī)方式執(zhí)行，會(huì)產(chǎn)生頻繁的內(nèi)存訪問(wèn)，嚴(yán)重拖慢訓(xùn)練速度。

DeepSeek團(tuán)隊(duì)沒(méi)有調(diào)用現(xiàn)成的庫(kù)，而是基于TileLang框架手寫(xiě)了底層CUDA內(nèi)核代碼，將多個(gè)分散的操作合并成一個(gè)融合內(nèi)核。

這種優(yōu)化就像把原本需要多次往返的快遞，合并成一次批量配送。減少了內(nèi)存訪問(wèn)次數(shù)，提升了數(shù)據(jù)locality，僅這一項(xiàng)優(yōu)化就帶來(lái)了22%的帶寬提升。

針對(duì)Sinkhorn-Knopp算法，團(tuán)隊(duì)還設(shè)計(jì)了專(zhuān)門(mén)的前向和反向內(nèi)核，在芯片上重新計(jì)算中間結(jié)果，避免了額外的存儲(chǔ)開(kāi)銷(xiāo)。

大模型訓(xùn)練中，激活值的存儲(chǔ)是內(nèi)存占用的主要來(lái)源之一。

mHC的多車(chē)道設(shè)計(jì)會(huì)讓激活值規(guī)模成倍增加，為了解決這個(gè)問(wèn)題，DeepSeek采用了選擇性重計(jì)算策略。在反向傳播時(shí)，不存儲(chǔ)所有中間激活值，而是選擇性地重新計(jì)算部分結(jié)果。

這種策略看似增加了少量計(jì)算量，但大幅降低了內(nèi)存占用，實(shí)驗(yàn)顯示內(nèi)存消耗降低了40%。

在多卡并行訓(xùn)練中，設(shè)備間的通信延遲往往是性能瓶頸。

DeepSeek擴(kuò)展了DualPipe調(diào)度策略，通過(guò)將MLP層的特定內(nèi)核放在高優(yōu)先級(jí)計(jì)算流上執(zhí)行，讓計(jì)算任務(wù)與設(shè)備間的通信任務(wù)并行進(jìn)行。

當(dāng)一張GPU在發(fā)送數(shù)據(jù)時(shí)，另一張GPU已經(jīng)在執(zhí)行計(jì)算，不會(huì)出現(xiàn)[閑等]的情況。

這套組合拳下來(lái)，mHC在擴(kuò)展系數(shù)n=4（即4條并行殘差流）時(shí)，內(nèi)部實(shí)測(cè)的額外訓(xùn)練時(shí)間開(kāi)銷(xiāo)僅為6.7%。

mHC作為擴(kuò)展性設(shè)計(jì)，有望在以下多個(gè)層面帶來(lái)影響：

①大規(guī)模LLM訓(xùn)練穩(wěn)定性：可以提升深層網(wǎng)絡(luò)擴(kuò)展規(guī)模的可控性。

②低成本訓(xùn)練策略：通過(guò)架構(gòu)優(yōu)化減少訓(xùn)練失敗和資源浪費(fèi)。

③生態(tài)共享：若該架構(gòu)開(kāi)源并被主流框架采納，將推動(dòng)整個(gè)社區(qū)對(duì)新連接機(jī)制的探索。

十年基石：殘差連接如何成為AI的[定海神針]

DeepSeek過(guò)去通過(guò)開(kāi)源策略成功將自己置于全球技術(shù)對(duì)話(huà)中；這一次通過(guò)架構(gòu)創(chuàng)新進(jìn)一步強(qiáng)化其技術(shù)品牌。

mHC既是一個(gè)具體的架構(gòu)創(chuàng)新，也代表著DeepSeek在人工智能基礎(chǔ)架構(gòu)領(lǐng)域的更高目標(biāo)，推動(dòng)整個(gè)行業(yè)對(duì)于訓(xùn)練穩(wěn)定性與可擴(kuò)展性問(wèn)題的重新思考。

未來(lái)幾個(gè)月，這種思想能否轉(zhuǎn)化為即將發(fā)布的R2模型甚至更大規(guī)模的實(shí)際產(chǎn)品性能優(yōu)勢(shì)，將是真正的檢驗(yàn)。

但在AI競(jìng)爭(zhēng)愈發(fā)激烈的今天，每一個(gè)早期且可能改變游戲規(guī)則的架構(gòu)創(chuàng)新，都值得我們?nèi)ド钊虢庾x與持續(xù)關(guān)注。

部分資料參考：騰訊科技：《梁文鋒帶隊(duì)DeepSeek，重置深度神經(jīng)網(wǎng)絡(luò)最底層的“定海神針”》，頭部科技：《下一代模型呼之欲出？！DeepSeek的新年禮物mHC是個(gè)啥？》，硅星人Pro：《梁文鋒DeepSeek新論文！接棒何愷明和字節(jié)，又穩(wěn)了穩(wěn)AI的“地基”》，科技最前線(xiàn)：《一篇論文，解決大模型“越聰明越容易崩”的死結(jié)》

原文標(biāo)題 : 深度丨梁文鋒署名論文發(fā)布，DeepSeek用mHC新架構(gòu)“秀肌肉”

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷(xiāo)售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷(xiāo)售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專(zhuān)家廣東省/江門(mén)市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网