123,123

<ul id="u0urn"><meter id="u0urn"></meter></ul>

<blockquote id="u0urn"><th id="u0urn"></th></blockquote>

<center id="u0urn"><ul id="u0urn"><sup id="u0urn"></sup></ul></center>

當前位置： OFweek 人工智能網(wǎng) > 正文

阿里，全球第一�。�！

2024-06-28 09:36

近日，全球著名開源平臺HuggingFace（笑臉）聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem在社交平臺宣布，阿里最新開源的Qwen2-72B指令微調(diào)版本衛(wèi)冕冠軍，繼續(xù)位列全球開源模型排行榜第一名。

在OpenAI拒絕中國開發(fā)者的當口，這個“第一名”來得非常及時。

第一，中國開發(fā)者從OpenAI集體“回家”，國內(nèi)大模型供應商紛紛推出遷移方案迎接。雷科技在《OpenAI拒絕中國開發(fā)者，“百模大戰(zhàn)”全面進入下半場》一文已盤點，超過10家大模型供應商推出各種服務來“搶客”。

不過，在很多人固有印象中，中國大模型供應商只是“平替版本”，是實在沒得用了，勉強能用的。甚至還有人說GPT是高鐵，國產(chǎn)大模型就是拖拉機，雖然都能跑，但其實不一樣。

其實這是偏見，在很多領(lǐng)域，國內(nèi)大模型都已經(jīng)具有世界級競爭力了，特別是開源大模型。

什么叫具備世界級競爭力的大模型？這里分兩種：

一種是每次發(fā)布會都號稱全面碾壓GPT4的玩家，參數(shù)沒輸過，評測沒贏過，這是自賣自夸，自吹自擂。

還有一類，是在權(quán)威榜單上拿到名次的。HuggingFace是全球最權(quán)威的開源模型榜單，它給阿里云的Qwen2“正名”，或者說給了“權(quán)威認證”。

第二，為什么HuggingFace能做全球最權(quán)威的開源模型榜單？

為什么HuggingFace能做全球最權(quán)威的開源模型榜單？這個定義不是隨便給的，而是跟這個平臺的背景有關(guān)系。HuggingFace不是大模型供應商，而是全球最受歡迎的大模型和數(shù)據(jù)集開源社區(qū)，開發(fā)者可以在這里獲取大模型開源代碼、獲取數(shù)據(jù)集進行訓練。可以說，做AI開發(fā)，基本繞不過HuggingFace，因此它也被稱為大模型/機器學習的GitHub。

也就是說，HuggingFace更像是一個大模型的應用、分發(fā)、發(fā)布平臺。包括微軟、Facebook、特斯拉等等巨頭的大模型，都會在HuggingFace主發(fā)布。比如在前段時間的微軟Build大會，納德拉就宣布微軟在 Huggingface 上發(fā)布了 Phi-3-medium，Phi-3-small，以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消費級硬件上可用的最好模型。

有海量開源大模型以及數(shù)據(jù)集，有海量AI開發(fā)者以及使用數(shù)據(jù)，因此HuggingFace可以做出行業(yè)最權(quán)威的開源模型榜單。這跟媒體或者專門的第三方評測機構(gòu)做的榜單有本質(zhì)不同。很多評測榜單源自這樣的“第三方”，姑且不說權(quán)威性、客觀性、中立性，恐怕專業(yè)性也會大打折扣。

好了，說清楚HuggingFace榜單的權(quán)威性后，我們再看阿里云的Qwen2有多強？

第三，為什么HuggingFace 6月兩次發(fā)榜？榜單V2意義在哪里？

其實今年6月7日，HuggingFace也發(fā)過一次榜單，當時第一也是Qwen2。為什么要更新榜單到V2呢？HuggingFace說是，“榜單內(nèi)的測試集，更難、更好、更快、更強（Harder, better, faster, stronger）。”因此，對模型的考察也更有說服力。

其實對大模型基于測試數(shù)據(jù)集進行評測的過程，形象點說就是“做題考分”，跟我們考試一樣。但問題是，這個題目是開放的。因此就出現(xiàn)了一種情況：很多大模型會“刷題”，就是讓大模型先訓練幾波，進而拿到好的評測分數(shù)，有的公司會雇傭人類“數(shù)據(jù)標注員”來做題將答案給到大模型，還有的公司會讓GPT-4來答題再將答案用來訓練自家大模型，大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4，玄妙正在于這里。

也就是說，開源評測數(shù)據(jù)集相當于高考搞“開卷考試”一樣，除非是特別開放的問題（如職場面試），否則被試者完全可以提前針對性地刷題背答案，最終得分自然完全無法反映出其真實水平。

HuggingFace也在技術(shù)博文指出，“過去一年，Open LLM Leaderboard的基準指標已經(jīng)被過度使用，出現(xiàn)幾個問題：題目對模型來說變得太簡單；一些新近出現(xiàn)的模型出現(xiàn)數(shù)據(jù)污染跡象；有些測評基準存在錯誤。因此，平臺提出了更有挑戰(zhàn)性的V2榜單，基于未受污染、高質(zhì)量數(shù)據(jù)集的新基準，運用可靠的度量標準。”

好了，現(xiàn)在測試數(shù)據(jù)集（題目）大更新，最新的試卷、最新的考試，阿里云的Qwen2還是第一。也正是因為此，Huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem才會公開發(fā)文稱“Qwen2-72B是王者，中國在全球開源大模型領(lǐng)域處于領(lǐng)導地位。”如果沒有嚴格、充分的測試，他不可能公開進行這樣的“點贊”。

期待以后HuggingFace的榜單可以升級更快，測試數(shù)據(jù)集可以更新更快，阿里云的Qwen2以及國產(chǎn)大模型可以繼續(xù)擁有更好的名次。

OpenAI不支持中國開發(fā)者，開源大模型廠商必須要快速精進，勇敢補位。現(xiàn)在，是國產(chǎn)大模型、國產(chǎn)開源大模型生態(tài)被倒逼加速進步的絕佳時機，也是證明自己的好時機。

原文標題 : 阿里，全球第一�。�！

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<ul id="y410d"><th id="y410d"></th></ul>