訂閱
糾錯
加入自媒體

DeepSeek-R1大戰(zhàn)豆包、Kimi,國產AI大模型第一花落誰家?

2025-02-07 15:32
雷科技
關注

盛名之下無虛士。

日活用戶突破2000萬,與中國移動、華為、金山辦公、吉利汽車等企業(yè)相繼達成合作,DeepSeek迎來了高光時刻。

在互聯(lián)網巨頭爭相進入AI行業(yè)的今天,企業(yè)為實現(xiàn)技術領先,紛紛斥巨資買數(shù)據和算力芯片,打造萬卡集群。然而DeepSeek卻選擇了與眾不同的以“花小錢辦大事”路線,推出的V3模型訓練成本僅557.6萬美元,最新的R1模型,則以V3模型為基座,號稱能力不輸OpenAI開發(fā)的o1大模型。

在訓練成本僅為其他AI大模型數(shù)十分之一的前提下,DeepSeek-R1真的能夠持平o1大模型,傲視國內諸多AI大模型嗎?

實踐出真知,小雷決定將其與國內用戶數(shù)量較高、名氣較大的豆包、Kimi、文心一言、通義千問四款AI大模型進行對比,測試DeepSeek-R1是否真如宣傳中一般強大。

挑戰(zhàn)四大AI大模型,DeepSeek技高一籌?

架構優(yōu)化、算力升級后、參數(shù)量增加后,AI大模型的功能愈發(fā)豐富,值得挖掘的細節(jié)也越來越多。本次測試,小雷選擇了我們日常使用較多的內容分析、創(chuàng)意寫作、數(shù)學推理三個項目。

參與測試的五款大模型,具體版本分別為DeepSeek-R1、豆包云雀、Kimi-k1.5、文心3.5、通義千問2.5,均可免費使用。

內容分析:DeepSeek-R1傲視群雄

為加快工作效率,不少職場人士會使用AI工具幫忙總結文檔、PDF等文件。小雷挑選了京東、第一財經聯(lián)合發(fā)布的《2024年輕人生活方式及營銷趨勢》文檔,測試各大AI大模型能否總結出重點內容,幫助小雷快速了解2024年年輕消費群體的特點。

此前小雷評測AI大模型時,曾吐槽AI大模型難以分析出文檔的核心內容,導致輸出的結果車轱轆話來回轉,但短短三四個月時間過去,AI大模型的文檔總結能力已得到了飛躍性的提升。

本輪測試中,除了通義千問沒有明顯進步,總結的內容過于簡略,信息缺失嚴重外,其他幾款大模型均表現(xiàn)出色,尤其是豆包和Kimi,不但總結出了2024年的十大趨勢,還對2025年的生活方式趨勢展望進行了歸類。同時,Kimi還指出,90后和00后消費占比過半,強調了年輕消費群體的重要性。文心一言表現(xiàn)則中規(guī)中矩,總結出了2024年的十大趨勢,卻忽略了2025年展望的相關內容。

(圖源:通義千問截圖)

作為本次評測的主角,DeepSeek-R1表現(xiàn)更為出色,在總結出的每一個趨勢下,還會加入一些數(shù)據或產品作為事例,與觀點互相印證,增強內容的可靠性。許多AI撰寫的文章能夠一眼認出,原因就在于AI生成的內容較為空虛,沒能落到實處,經常缺乏例證,DeepSeek-R1顯然已進入了更高層次。

第一題.png

(圖源:DeepSeek截圖)

總的來說,本輪測試中DeepSeek-R1證明了自己名副其實,表現(xiàn)超越其他四款AI大模型。而另外四款AI大模型中,豆包和Kimi的表現(xiàn)則明顯高出一個層次,免費版的文心3.5表現(xiàn)一般,通義千問則表現(xiàn)較差。

創(chuàng)意內容撰寫:DeepSeek再勝一場

2月5日,小說平臺閱文集團和數(shù)字出版社中文在線接連宣布,已接入DeepSeek-R1,將通過AI提高作者的創(chuàng)作效率,但AI真的能夠取代網文作者嗎?

小雷要求AI大模型以古龍風格寫一篇5000字到10000字的武俠小說,并輸入大綱:

天南劍宗第一高手葉飛霜與太玄門掌門慕容宸約戰(zhàn)華山之巔,雙方各帶本門弟子助陣。慕容宸卻暗中與五大黑道勢力合作,企圖徹底消滅天南劍宗。

然而天南劍宗實則為六扇門安插在江湖的勢力,目的便是借助此次門派約戰(zhàn)引出黑道勢力,并將其一舉消滅。在黑道勢力聯(lián)手太玄門圍攻天南劍宗弟子時,六扇門大軍背后包抄,徹底消滅了為禍一方的黑道勢力和太玄門。

與此前限定范圍的測試不同,寫武俠小說雖有大綱限制,但可發(fā)揮空間極大,各大AI大模型之間的差距和風格也會表現(xiàn)出較為明顯的差異。

本輪測試中,豆包和Kimi在撰寫時,分別為其取名為《劍影風云錄》和《龍影霜華錄》,與古龍大多數(shù)小說的取名風格并不相符,反而更像梁羽生的習慣。DeepSeek-R1、文心一言并未為小說取名,通義千問則是簡單地命名為《華山之巔》。

QQ20250206-175021.png

(圖源:豆包截圖)

內容方面,通義千問依然是倒數(shù),缺乏細節(jié)描寫和轉折,小雷未提到的人名或幫派名稱,通義千問也沒有主動加入任何一個。Kimi生成的內容質量更好一些,細節(jié)較為豐富,對于大綱的理解也更加到位,但與通義千問相同,僅僅是在大綱原定的人物著筆。

DeepSeek-R1、文心一言、豆包生成的內容質量更好,人物、招式、門派名稱齊全,且劇情存在不少轉折,還主動豐富了細節(jié)。例如DeepSeek-R1撰寫的小說中,兩位主人公原本是好朋友,因女人反目成仇,為續(xù)寫埋下了伏筆;文心一言生成的內容中,葉飛霜在戰(zhàn)斗中差點走火入魔,得到師兄相助才反敗為勝;豆包則主動續(xù)寫了一段內容,加入了葉飛霜功成名就后,被身邊摯友背叛的情節(jié)。

QQ20250206-175123.png

(圖源:DeepSeek截圖)

遺憾的是,文心一言生成的內容忽視了大綱中的六扇門,將故事完全寫成了江湖恩怨,豆包續(xù)寫的內容反派刻畫太少,導致小雷對其的評分稍微降低了一些。

這一輪測試DeepSeek-R1的表現(xiàn)依然遠遠領先其他AI大模型,但并不是其他幾款AI大模型表現(xiàn)不好,文心一言和豆包的表現(xiàn)已經超過了小雷的預期,只是DeepSeek-R1的表現(xiàn)太好了,有情感糾葛、劇情轉折,尤其是結尾部分的內容,頗有古龍遺風。

現(xiàn)階段AI大模型寫小說依然會有些吃力,需要用戶盡可能將大綱細化。小雷匆忙想出的大綱過于籠統(tǒng),或許是通義千問和Kimi表現(xiàn)不好的原因之一。

數(shù)學推理:AI大模型永遠的痛

2024年蘋果工程師曾發(fā)表了一篇論文,吐槽AI大模型并沒有真實的數(shù)學推理能力,AI企業(yè)的宣傳存在夸大成分。隨后,各大AI企業(yè)紛紛以“復雜推理”為噱頭,陸續(xù)推出了全新的大模型版本。然而數(shù)月時間過去,AI大模型真的具備推理能力了嗎?

本輪測試小雷選擇的數(shù)學題是2024年高考一卷第十四題,具體內容為:

甲、乙兩人各有四張卡片,每張卡片上標有一個數(shù)字,甲的卡片上分別標有數(shù)字1,3,5,7,乙的卡片上分別標有數(shù)字2,4,6,8,兩人進行四輪比賽,在每輪比賽中,兩人各自從自己持有的卡片中隨機選一張,并比較所選卡片上數(shù)字的大小,數(shù)字大的人得1分,數(shù)字小的人得0分,然后各自棄置此輪所選的卡片棄置的卡片在此后輪次中不能使用則四輪比賽后,甲的總得分不小于2的概率為?(正確答案:1/2)

站在人類的角度上,這道題的難度其實并不高,哪怕將每一種可能全部列出來再計算,所需的時間也不會特別多。然而在AI大模型眼中,這道題卻是難上了天,DeepSeek-R1、豆包給出的答案都是17/24,Kimi、文心一言、通義千問給出的答案分別是1971/4096、243/256、551/576,居然再一次全部陣亡。

QQ20250206-181338.png

(圖源:DeepSeek截圖)

隨后小雷又用OpenAI的o1、o3 mini、GPT-4o三款大模型進行了計算,這三款大模型都算出了正確答案,但細節(jié)上也存在一些問題,如o1模型輸出內容時出現(xiàn)了2=1/2,但不影響其計算出了正確答案。該情況表明,在數(shù)學推理方面,DeepSeek-R1與OpenAI旗下的大模型可能還有一定的差距。

微信圖片_20250206181549.jpg

(圖源:o1大模型截圖)

最有趣的不是這些離譜的答案,而是AI大模型的推理過程,DeepSeek-R1和Kimi-k1.5會不斷打斷自己的思考過程,選擇新的方案。數(shù)學推理依然是當前AI大模型難以攻克的關隘,前兩項測試領先其他國產AI大模型的DeepSeek-R1,也在本輪測試中未能拉開差距。

盛名之下無虛士,DeepSeek的榮耀實至名歸

2024年12月,DeepSeek-V3大模型剛上線之時,小雷便對其進行了測試。當時小雷的評價是,DeepSeek-V3在內容總結、文字生成方面能夠媲美豆包、Kimi,但功能豐富性遠不及其他AI智能體。

僅一個多月時間過去,基于V3大模型調整的R1大模型就實現(xiàn)了質的飛躍,在內容總結、文字生成方面相較赫赫有名的豆包、Kimi、文心一言、通義千問等AI大模型居然領先不少。當然,數(shù)學推理方面大家還是一樣地“菜”,OpenAI仍處于領先地位。

DeepSeek-R1僅僅做到能力強,無法造成這么大的影響,最關鍵的是其訓練成本大約只有600萬美元,遠低于GPT-4,預計只有GPT-5的1/200甚至更低。

過去我們的認知中,提升AI大模型的行業(yè)需要堆算力、買數(shù)據,AI企業(yè)也確實在這樣做,如小米要建萬卡集群、字節(jié)跳動計劃在2025年投入400億元購買AI算力芯片。Macquarie分析師質疑DeepSeek隱瞞了開發(fā)成本,經過他們的計算,R1大模型的訓練成本應該在26億美元左右。

DeepSeek卻告訴我們,只需要數(shù)百萬美元,折合人民幣不到9位數(shù),就能訓練出媲美OpenAI o1大模型的產品。因DeepSeek-R1的沖擊,最近一段時間全球算力芯片主要提供者NVIDIA股價一路狂跌,近兩天雖有所回暖,但依然未能回到巔峰時期。

借助DeepSeek-R1的卓越表現(xiàn),DeepSeek瞬間成為了AI行業(yè)的香餑餑,與各行各業(yè)巨頭達成合作,甚至在工業(yè)AI領域實力超群的華為,也讓小藝接入了DeepSeek-R1。因用戶數(shù)量太多,近期DeepSeek官網頻頻出現(xiàn)服務器繁忙,API調用充值入口也因人數(shù)太多被關閉。

DeepSeek-R1訓練和推理成本雖低,可大量用戶涌入,DeepSeek當前擁有的算力,已無法滿足用戶的需求。中國企業(yè)最擅長的就是從1到正無窮,DeepSeek指明了道路,其他AI企業(yè)將快速跟上。DeepSeek若想留住這波流量,增加算力規(guī)模、提高用戶體驗迫在眉睫。

      來源:雷科技

       原文標題 : DeepSeek-R1大戰(zhàn)豆包、Kimi,國產AI大模型第一花落誰家?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號