訂閱
糾錯(cuò)
加入自媒體

希望2025年,中國(guó)不再只有一個(gè)DeepSeek

 DeepSeek對(duì)AI行業(yè)深遠(yuǎn)影響,成本定價(jià)體系、市場(chǎng)估值體系、產(chǎn)業(yè)上下游生態(tài),都需要達(dá)成新的共識(shí)。更重要的是DeepSeek使人們看到了‘信心’,‘信心’能凝聚更多資源(輿論環(huán)境、人才、資本、時(shí)間、耐心等)讓中國(guó)科技從技術(shù)追趕者變成了引領(lǐng)創(chuàng)新者。

從2022年底OpenAI發(fā)布ChatGPT,中國(guó)AI發(fā)展的主流敘事始終是“追趕”,而DeepSeek橫空出世,將“追趕“變成了“創(chuàng)新”和“普及”,甚至是“重塑”和“超越”。

從1月20日,周日晚間梁文鋒登上新聞聯(lián)播開(kāi)始發(fā)酵,震撼全世界的“DeepSeek R1 560萬(wàn)美元訓(xùn)練成本,并且開(kāi)源”,使得全球AI人相關(guān)的人注意力都聚焦于此。

算力廠家股價(jià)大跳水。投AI的VC們不僅忙著研究DeepSeek,還要重新評(píng)估AI市場(chǎng),并且還要承受輿論的巨大壓力,比如小紅書有篇帖子,標(biāo)題為“DeepSeek再次證明,中國(guó)VC就是個(gè)笑話”。更不幸的是,點(diǎn)贊還過(guò)千了。DeepSeek的開(kāi)源也引發(fā)了全球?qū)τ诩夹g(shù)平權(quán)的熱烈討論。

當(dāng)我們情緒得到了宣泄,冷靜下來(lái)用“系統(tǒng)2”來(lái)思考的時(shí)候,不禁會(huì)問(wèn):DeepSeek影響了什么?真實(shí)的成本到底多少?未來(lái)對(duì)AI的投資有哪些影響?技術(shù)平權(quán)帶來(lái)了什么?

01失意的VC們

自從ChatGPT問(wèn)世以來(lái),國(guó)內(nèi)關(guān)于AI賽道的投資是最火熱的。但DeepSeek的發(fā)布,讓英偉達(dá)這類算力相關(guān)廠商的股價(jià)大跳水(堆算力的敘事邏輯被打破),成為最大“受害者”。

除此之外,最失意的可能要算是這些VC們了:投的企業(yè)沒(méi)水花,火爆的投不進(jìn)去。

他們投了大量的錢在“大模型六小龍”們上,但他們支持的大模型創(chuàng)業(yè)項(xiàng)目,自始沒(méi)有一個(gè)達(dá)到DeepSeek這樣的全球熱度。

比如幾乎與DeepSeek同時(shí)發(fā)布的,Kimi全新強(qiáng)化學(xué)習(xí)模型k1.5,雖然是全球繼OpenAI之后首個(gè)多模態(tài)類o1模型,在諸多層面能力接近o1甚至是超越,但沒(méi)有濺起多大水花,同樣淹沒(méi)在了DeepSeek狂熱的輿論中。

輿論不吝給予梁文鋒和他的理想主義最大程度的贊揚(yáng),同時(shí)也施加給中國(guó)VC極致的羞辱和討伐,比如小紅書有篇帖子,標(biāo)題為“DeepSeek再次證明,中國(guó)VC就是個(gè)笑話”。更不幸的是,點(diǎn)贊還過(guò)千了。

宣泄情緒,不如客觀分析,VC們?yōu)槭裁礇](méi)投到DeepSeek?

這個(gè)春節(jié)假期,大模型的投資人心情是復(fù)雜的,既驚喜又恐慌。驚喜在于,中國(guó)大模型企業(yè)能夠這么快趕上世界水平;恐慌則在于,整個(gè)AI投資的邏輯可能會(huì)發(fā)生巨大的變化。

至少在國(guó)內(nèi),DeepSeek已經(jīng)贏了這場(chǎng)戰(zhàn)爭(zhēng)。它正在進(jìn)行的一輪融資估值已經(jīng)達(dá)到80億美元,是行業(yè)里估值最高的一家,這都得搶破頭或只能定向融。”一位AI投資人說(shuō)。關(guān)注AI賽道的投資人,最近都直接或間接找到梁文鋒確認(rèn)DeepSeek是否正式啟動(dòng)融資,目前沒(méi)有得到官方答復(fù)。爆火后的梁文鋒,已經(jīng)被投資人包圍了;梅胶贾菘偛克诘膮R金國(guó)際大廈,近期都擠滿了記者和投資人。DeepSeek此前并未開(kāi)放融資,初期資金由幻方量化支持。

按照梁文峰在訪談中的說(shuō)法,他也嘗試過(guò)找資方,但礙于自己專注于研究的想法和VC更多考慮商業(yè)化的訴求不相符,于是斷了念想。為什么沒(méi)有投到DeepSeek,有兩方面原因:1、投資行業(yè)對(duì)于AI的投資經(jīng)驗(yàn)判斷導(dǎo)致;2、DeepSeek自身定位和基因。

1、AI的投資判斷2023年上半年融資戰(zhàn)剛開(kāi)始時(shí),行業(yè)內(nèi)的一個(gè)分析是:中國(guó)的VC經(jīng)過(guò)上一代AI公司(以AI四小龍商湯、曠世、云從、依圖為代表)的“洗禮”,對(duì)大模型公司的商業(yè)化耐心已經(jīng)從5年、8年縮短到3年內(nèi)。這或許是中國(guó)大模型公司的普遍困境。VC都是幫LP管錢,都得賺錢,所以商業(yè)化是必須提上日程的事,不能一直專注做研究。像金沙江資本的朱嘯虎,在DeepSeek這波火爆之前,對(duì)大模型嗤之以鼻,明確不投大模型,投AI應(yīng)用,就是因?yàn)檠芯侩x商業(yè)化太遠(yuǎn)。

但朱總畢竟是朱總,對(duì)VC應(yīng)不應(yīng)該參與DeepSeek融資的重點(diǎn)拿捏得很準(zhǔn),“我肯定投啊,這個(gè)價(jià)格已經(jīng)不太重要了,關(guān)鍵是參與在這里面”。打不打臉不重要,誰(shuí)和錢過(guò)不去呢。這應(yīng)該是現(xiàn)階段所有VC的共識(shí):“跪著”也要進(jìn)去一些份額。一位省級(jí)國(guó)資的投資人表示,最近他們機(jī)構(gòu)從上到下,都在跟DeepSeek方面接觸,無(wú)論如何希望“跪一部分份額”進(jìn)去,但DeepSeek口咬得很死,堅(jiān)稱目前并沒(méi)有開(kāi)放融資窗口。

當(dāng)然誰(shuí)也不可能預(yù)知未來(lái),也不可能預(yù)測(cè)到DeepSeek這么火。任何產(chǎn)品的火爆離不開(kāi)天時(shí)地利人和,時(shí)點(diǎn)很重要。在當(dāng)下AI的上升曲線已經(jīng)變緩,預(yù)訓(xùn)練的數(shù)據(jù)差不多用光了,大語(yǔ)言模型能力不再容易上升,只能轉(zhuǎn)換思路轉(zhuǎn)向以O(shè)penAI的 O1和DeepSeek的 R1為代表的推理模型。“這個(gè)時(shí)候,是選擇繼續(xù)砸大錢去搏一個(gè)上限?還是不追求那5%的進(jìn)步而是把成本降到原來(lái)的10%?DeepSeek代表的降成本路線恰恰出現(xiàn)在一個(gè)合適的時(shí)間點(diǎn)上。”2、DeepSeek自身定位和基因創(chuàng)始人梁文鋒的個(gè)人風(fēng)格十分明顯:有極強(qiáng)的技術(shù)信仰,對(duì) AGI 有十足的好奇心與求知欲,并且十分刻苦。

接近梁文鋒的知情人士形容,梁文鋒“說(shuō)話非常非常慢,每一句話都要思考很久很久才表達(dá)出來(lái),而且表達(dá)非常簡(jiǎn)潔。雖然簡(jiǎn)潔,但說(shuō)出來(lái)的話經(jīng)常一針見(jiàn)血。”一位幻方量化的員工曾在公司博客中寫道,“老板本人每天都在寫代碼、跑代碼。”這是就是梁文鋒與其他公司的不同之處。想了解梁文鋒的成長(zhǎng)經(jīng)歷,可以看下這篇文章:《爆火DeepSeek背后的創(chuàng)始人梁文鋒,到底有多牛?》

DeepSeek是一群絕對(duì)的技術(shù)理想主義者。延續(xù)了梁文鋒在量化行業(yè)對(duì)技術(shù)人才高要求的風(fēng)格,DeepSeek基本以 Top2 高校、信息學(xué)競(jìng)賽金牌選手為基準(zhǔn),團(tuán)隊(duì)規(guī)模往往不大,但能力超強(qiáng)。看看這份名單就可知曉一二:

DeepSeek 內(nèi)部的組織文化也非常扁平。無(wú)論是北京還是杭州,都只有一個(gè)老板:DeepSeek創(chuàng)始人梁文鋒。梁文鋒以下基本全是打工人。當(dāng)然同時(shí)也是幻方量化創(chuàng)始人的梁文鋒也不差錢,還是支撐的起初期DeepSeek的投入,幾十億還是拿的出來(lái)。當(dāng)然和OpenAI幾千億、字節(jié)、阿里幾百億的投入相比,確實(shí)不是一個(gè)量級(jí)。一號(hào)位是技術(shù)發(fā)燒友,對(duì)技術(shù)有天然的敬畏之心與好奇之心;同時(shí)在管理上集權(quán)風(fēng)格明顯,文化扁平,因而能在技術(shù)探索中遇到困難時(shí)能自上而下協(xié)調(diào)資源,快速達(dá)到上傳下達(dá)的效果。這或許就是DeepSeek能成功的關(guān)鍵。當(dāng)然,這也是和VC們談不攏的根本原因。

02技術(shù)平權(quán)

ChatGPT和LLama,OpenAI和Mata一直代表著大模型的兩個(gè)陣營(yíng),閉源和開(kāi)源之爭(zhēng),就像蘋果的IOS和谷歌的安卓。

開(kāi)源與閉源既是技術(shù)策略,更是商業(yè)策略。

表面上是發(fā)展路線之爭(zhēng),實(shí)則是利益之爭(zhēng)。

梳理國(guó)內(nèi)知名大模型的開(kāi)閉源情況發(fā)現(xiàn),阿里云、騰訊等云廠商旗下模型更傾向于開(kāi)源;智譜AI、百川智能、月之暗面等大模型創(chuàng)業(yè)公司則傾向于閉源。

“核心還是盈利模式。”生成人工智能算力成本高昂、研發(fā)投入較大給企業(yè)盈利帶來(lái)一定困難。

有錢的大廠都傾向于開(kāi)源,沒(méi)錢的公司都傾向于閉源。百度的李彥宏支持大模型閉源,何嘗不是經(jīng)營(yíng)層面的考慮呢?

DeepSeek的開(kāi)源,是全球大模型發(fā)展的催化劑,可以讓全球享受到更低的成本,讓AI更快速地走到大眾身邊。

圖片

當(dāng)然開(kāi)源、閉源確實(shí)也各有利弊。開(kāi)源會(huì)讓大家“拿來(lái)主義”,不會(huì)再考慮底層的創(chuàng)新了。TrainiCEO孫鄰家認(rèn)為,“技術(shù)過(guò)度平權(quán)不一定是好事,會(huì)失去創(chuàng)新的驅(qū)動(dòng)力,F(xiàn)在看來(lái),2025年是一個(gè)從閉源套殼轉(zhuǎn)為開(kāi)源套殼的年份,造成的結(jié)果可能是出現(xiàn)一堆同質(zhì)化產(chǎn)品,依然找不到盈利的方法。目前,能做Fine-tuning(大模型微調(diào))的公司沒(méi)有想象中的那么多,能持續(xù)做并且有創(chuàng)新的就更少,缺數(shù)據(jù)和人才。”開(kāi)源也好,閉源也罷。技術(shù)競(jìng)合催生共贏,封鎖反噬創(chuàng)新生態(tài)。模型變小和經(jīng)濟(jì)性提高,對(duì)應(yīng)用肯定是積極影響,但是在應(yīng)用側(cè),技術(shù)不是最大的制約,而是對(duì)產(chǎn)業(yè)的理解。

在安卓上長(zhǎng)出的軟件應(yīng)用也沒(méi)有殺死iOS和其應(yīng)用。LLama的能力也很強(qiáng)大,可以滿足多數(shù)應(yīng)用的需求,但實(shí)際離我們期待的落地使用也差很遠(yuǎn)。

相信2025年是AI應(yīng)用大年。DeepSeek出來(lái)之后,做應(yīng)用的廠商只需要專注在應(yīng)用本身的前后端交互體驗(yàn),同時(shí)再基于場(chǎng)景做打磨就可以了,這省去了很多基礎(chǔ)層面的投入。

DeepSeek的出現(xiàn)短期內(nèi)可以改變了對(duì)算力需求的邏輯,但長(zhǎng)期來(lái)看,AI和應(yīng)用的蓬勃發(fā)展,必然帶來(lái)總體需求的增長(zhǎng),算力還是有價(jià)值的。

03

DeepSeek的真實(shí)成本?

網(wǎng)絡(luò)的敘事,總是夸大事實(shí)來(lái)吸引眼球,560萬(wàn)美元真的是DeepSeek的真實(shí)成本嗎?DeepSeek從來(lái)沒(méi)說(shuō)過(guò)。只不過(guò)在DeepSeek V3的論文中提到了自己的訓(xùn)練成本是557.6萬(wàn)美元,但這肯定不是總成本。

DeepSeek到底有多少GPU?DeepSeek沒(méi)有對(duì)外公布過(guò)GPU數(shù)量,外界都是根據(jù)一些信息評(píng)估的數(shù)據(jù)。比如SemiAnalysis的評(píng)估數(shù)據(jù)如下:

1萬(wàn)個(gè)A100,1萬(wàn)個(gè)H800,1萬(wàn)個(gè)H100和3萬(wàn)個(gè)H20,組成了DeepSeek的“彈藥庫(kù)”。這里提下為什么這么多型號(hào)?英偉達(dá)為了遵守不同限制規(guī)定,生產(chǎn)了 H100 的多種變體(H800、H20),目前中國(guó)的模型供應(yīng)商僅能獲得 H20。2022年10月,美國(guó)政府要求英偉達(dá)不得向中國(guó)銷售A100和H100人工智能處理器。2023年英偉達(dá)針對(duì)中國(guó)市場(chǎng)的特供版H800、A800兩款芯片也被禁售。英偉達(dá)目前針對(duì)中國(guó)市場(chǎng)的是特供版H20,這個(gè)芯片在DeepSeek的影響下,可能也要被特朗普禁售了。而真正有據(jù)可查的數(shù)據(jù),來(lái)源于DeepSeek的論文中,提到了DeepSeek-V3使用了2048塊H800 GPU進(jìn)行訓(xùn)練。

DeepSeek的這一配置可能是其最有效的預(yù)訓(xùn)練集群。作為參考,Meta在其論文中提到使用了超過(guò)16000塊GPU的集群,Meta用的H100,而H800的性能是不如H100的。無(wú)論如何,雖遠(yuǎn)低于Meta的規(guī)模,但DeepSeek仍屬于計(jì)算資源最豐富的機(jī)構(gòu)之一,而且DeepSeek是2021年國(guó)內(nèi)最早具有萬(wàn)卡的5家企業(yè)之一,其他4家都是互聯(lián)網(wǎng)大廠。DeepSeek的總成本都有哪些?除了購(gòu)買GPU的費(fèi)用以外,DeepSeek還需要承擔(dān)實(shí)驗(yàn)與預(yù)訓(xùn)練成本、運(yùn)營(yíng)及電力成本、人力成本等等,如果真要均攤下,確實(shí)不低,這也是做大模型的公司,第一門檻就是找錢。1、實(shí)驗(yàn)與預(yù)訓(xùn)練成本

模型開(kāi)發(fā)過(guò)程中用于實(shí)驗(yàn)的總計(jì)算量遠(yuǎn)高于最終報(bào)告的數(shù)字,語(yǔ)言模型實(shí)驗(yàn)室常會(huì)通過(guò)scaling laws降低預(yù)訓(xùn)練風(fēng)險(xiǎn),這意味著在大規(guī)模訓(xùn)練之前會(huì)進(jìn)行數(shù)千次小規(guī)模實(shí)驗(yàn)(如10億至70億參數(shù)量),以驗(yàn)證模型的有效性。

據(jù)推測(cè),DeepSeek-V3的預(yù)訓(xùn)練實(shí)驗(yàn)總計(jì)算量可能是論文中報(bào)告數(shù)字的2-4倍,在1000萬(wàn)-2500萬(wàn)美元之間。此外,DeepSeek還可能使用了其他項(xiàng)目(如DeepSeek R1 Lite)作為合成數(shù)據(jù)的來(lái)源,進(jìn)一步增加了計(jì)算開(kāi)銷。

2、運(yùn)營(yíng)及電費(fèi)成本

對(duì)于1萬(wàn)塊以上的A/H100 GPU集群,電費(fèi)每年可能超過(guò)1000萬(wàn)美元,這也是筆不小開(kāi)銷。這么多GPU既要找地方放又要維護(hù)吧,當(dāng)然也可能與云服務(wù)提供商合作,這部分成本至少數(shù)億級(jí)別。

3、人力成本

DeepSeek-V3論文中有139名技術(shù)作者,當(dāng)然這里面有他們的員工,有應(yīng)屆畢業(yè)生,也有在校的實(shí)習(xí)生。如果按照人均60w年薪,大概也是1000多萬(wàn)美元。

全年運(yùn)營(yíng)成本:結(jié)合硬件、實(shí)驗(yàn)、運(yùn)營(yíng)及電力和人員成本,DeepSeek 一年的運(yùn)營(yíng)成本肯定不會(huì)低于3億美元。SemiAnalysis給出的估算是13億美元。

560萬(wàn)美元都是很多自媒體為了打雞血,抓眼球的斷章取義,反正普通老百姓也分辨不了,怎么能煽動(dòng)情緒怎么來(lái)寫。不要過(guò)度神話,也不要無(wú)腦貶低。多用用我們大腦的“系統(tǒng)2”理性分析。

對(duì)權(quán)威保持警惕、永遠(yuǎn)從問(wèn)題的本質(zhì)倒推,堅(jiān)定創(chuàng)新,才能引領(lǐng)潮流。短期的快錢或許會(huì)流向幸運(yùn)的人,但長(zhǎng)期的資源應(yīng)該流向那些擅長(zhǎng)將資源應(yīng)用到最好的團(tuán)隊(duì)。這也是創(chuàng)業(yè)的魅力所在~!

希望2025年,中國(guó)不再只有一個(gè)DeepSeek!

       原文標(biāo)題 : 希望2025年,中國(guó)不再只有一個(gè)DeepSeek

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)