從高光到塌房,Meta Llama 4 遭遇驚魂72小時(shí)
開源大模型 Llama 4 的翻車還在持續(xù)發(fā)酵。
4 月 8 日,作為大語言模型「權(quán)威榜單之一」的 Chatbot Arena(民間俗稱「大模型競技場」)發(fā)布了一則語氣罕見嚴(yán)肅的聲明。面對社群對于 Meta 新模型 Llama 4 排名的質(zhì)疑,官方表示將公開 2000 多場真人對比測試的完整數(shù)據(jù),并罕見點(diǎn)名 Meta:
「Meta 應(yīng)該更清楚地表明『Llama-4-Maverick-03-26-Experimental』是一個(gè)作為人類偏好進(jìn)行優(yōu)化的定制化模型。我們正在更新排行榜的策略,以避免此類混淆再次發(fā)生!
圖/ X
這條聲明不只是澄清,一定程度上也是對整個(gè)大模型行業(yè)的一記警鐘。
Chatbot Arena 由加州大學(xué)伯克利分校發(fā)起,是當(dāng)前大模型評測中可能最具行業(yè)影響力的「真人盲測」排行榜,核心的機(jī)制是通過讓開發(fā)者和 AI 愛好者會(huì)在平臺(tái)上用相同問題向兩款模型提問,對比回答內(nèi)容并投票打分。
而這種「真人盲測」的機(jī)制,讓 Chatbot Arena 有別于其他任何基準(zhǔn)測試,也成為了外界最為信賴的大模型排行榜。可以說,一款模型是否登上「Chatbot Arena 排行榜」前列,在一定程度上直接影響其在媒體和開發(fā)者群體中的口碑與采納率。
正因如此,當(dāng) Meta 在 4 月 5 日發(fā)布其最新一代開源大模型 Llama 4,隨后快速?zèng)_上Chatbot Arena 排行榜第二,力壓一眾頂級大模型,僅次于 Google 前腳發(fā)布的 Gemini 2.5 Pro,自然也就引起了所有人的好奇和期待。
但很快,社區(qū)發(fā)現(xiàn)這一版本是未公開、定制化調(diào)優(yōu)的「實(shí)驗(yàn)?zāi)P汀,而并?Meta 開源的正式版。于是,爭議爆發(fā):這算不算「刷榜」?Chatbot Arena 是否被利用為營銷工具?Meta 為什么要這樣操作?
更糟的是,在部分官方?jīng)]有展示的專業(yè)基準(zhǔn)測試中,Llama 4 表現(xiàn)也不盡如人意,幾乎墊底。不少第一批嘗試的用戶也在 Reddit、X 等社交平臺(tái)上發(fā)文表達(dá)了失望,有人就在發(fā)帖中提到 Llama 4 在編程能力上的不盡如人意,并指出:
「考慮到 Llama-4-Maverick 有 402B 的參數(shù)量,我為什么不直接使用 DeepSeek-V3-0324 呢?或者 Qwen-QwQ-32B 可能更合適——雖然性能相似,但它的參數(shù)量只有 32B!
圖/ Reddit
這讓人不禁疑惑,曾經(jīng)被開源陣營寄予厚望、憑借 Llama 2 和 Llama 3 逐漸建立口碑的 Meta,為什么就在 Llama 4 翻了車?
從高光到塌房,Llama 4的72小時(shí)驚魂
時(shí)間回到 4 月 5 日,Meta 在官方博客上發(fā)布《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》一文,正式宣布 Llama 4 系列模型面向社區(qū)開源。
這一次,Meta 公開了最新一代模型的三個(gè)版本:Llama 4 Scout、Llama 4 Maverick、還在訓(xùn)練中的「教師模型」Llama 4 Behemoth,均首次采用了混合專家(MoE)架構(gòu)。
圖/ Meta
其中最主流、最受關(guān)注的 Maverick 版本,是擁有 128 個(gè)「專家」的 170 億活躍參數(shù)模型(總參數(shù)為 4000 億),Meta 將其描述為「同類最佳的多模態(tài)模型」,強(qiáng)調(diào)其在多方面超過了 Gemini 2.0 與 GPT-4o,在編碼和推理方面比 Deepseek 3.1 更有競爭力。
但就在 Llama 4 發(fā)布不久,情況迅速脫離了 Meta 的預(yù)期。
在社區(qū)層面,首批用戶對 Llama 4 的表現(xiàn)并不買賬。在多個(gè)測試中,尤其是在需要代碼能力和嚴(yán)謹(jǐn)邏輯推理的場景中,Llama 4 的表現(xiàn)并沒有兌現(xiàn)其超越 GPT、DeepSeek 的表現(xiàn)。包括在 Aider Chat 提供的 Polyglot 編程測試中,Maverick 版本的正確率僅為 16%,處于排行榜末尾。
不僅與其龐大的參數(shù)體量完全不符,甚至落后于規(guī)模更小的開源模型,比如 Google Gamma 。這種結(jié)果讓不少開發(fā)者大感意外,也與官方宣傳形成了強(qiáng)烈反差。
圖/ Chatbot Arena
風(fēng)評下滑之際,更嚴(yán)厲的質(zhì)疑也接踵而至——Llama 4 是否使用了公開測試集進(jìn)行訓(xùn)練?是否針對通用基準(zhǔn)的 Chatbot Arena 針對性優(yōu)化?這些質(zhì)疑都在技術(shù)社區(qū)迅速傳播、發(fā)酵,包括 Chatbot Arena 在聲明中盡管并未使用「作弊」等字眼,但字里行間的語氣已足夠強(qiáng)硬和不滿。
尤其是中文移民社區(qū)「一畝三分地」上,自稱提交辭呈、要求從 Llama 4 技術(shù)報(bào)告中刪除名字的「Meta 員工」發(fā)帖表示,隨著 Deadline(截止日期)的逼近,Meta 最終選擇了將各個(gè)基準(zhǔn)測試的測試集混合在 Post-Training「后訓(xùn)練」(對應(yīng)大模型的「預(yù)訓(xùn)練」階段)之中。
不過 Meta 團(tuán)隊(duì)很快出面做了澄清,一位經(jīng)手「后訓(xùn)練」的 Meta GenAI 成員實(shí)名(Licheng Yu)表示:
「這兩天虛心聆聽各方 feedback(比如 coding、creative writing 等缺陷必須改進(jìn))希望能在下一版有提升。但為了刷點(diǎn)而 overfit 測試集我們從來沒有做過,實(shí)名 LichengYu,兩個(gè) oss model 的 post training 有經(jīng)手我這邊請告知哪條 prompt 是測試集選出來放進(jìn)訓(xùn)練集的我給你磕一個(gè)+道歉!」
圖/ Licheng Yu
公開資料顯示,Licheng Yu(虞立成)本科畢業(yè)于上海交通大學(xué),2014 年獲佐治亞理工學(xué)院和上海交通大學(xué)雙碩士學(xué)位,2019 年獲北卡羅來納大學(xué)教堂山分校計(jì)算機(jī)科學(xué)博士學(xué)位,2023 年 6 月至今在 Meta 擔(dān)任研究科學(xué)家經(jīng)理,并參與了 Llama 3、Llama 4 項(xiàng)目。
同時(shí),負(fù)責(zé) Meta GenAI 的副總裁 Ahmad Al-Dahle 也在 X 平臺(tái)明確表示,「Meta 沒有在測試集上訓(xùn)練 Llama 4!苟槍 Llama-4-Maverick-03-26-Experimental,Meta 也在爭議發(fā)生后選擇了發(fā)布開源版本,以回應(yīng)外界的批評。
圖/ X
但這些回應(yīng)顯然都沒能回避掉一個(gè)問題:Llama 4 的真實(shí)能力。事實(shí)上,不管是 Licheng Yu,還是 Ahmad Al-Dahle,都在駁斥部分質(zhì)疑的同時(shí)承認(rèn)了 Llama 4 在性能存在的問題。
作為開源陣營中曾經(jīng)「最有希望挑戰(zhàn) OpenAI」的旗手,Llama 4 原本承載著開發(fā)者與產(chǎn)業(yè)界的高度期待。但現(xiàn)在,它卻在發(fā)布一周內(nèi)從「高光」跌入「信任危機(jī)」,成為大模型競賽中一次罕見的口碑「滑鐵盧」。
DeepSeek加速開源,Meta被逼到失速
如果只看表面,這次 Llama 4 的口碑翻車,似乎充滿了戲劇張力——匿名離職員工爆料稱,Meta 高層為了趕上內(nèi)部設(shè)定的 Deadline,要求將各大測試集混入 「后訓(xùn)練」,只為「一個(gè)能看的結(jié)果」。甚至還傳言,負(fù)責(zé) AI 的副總裁 Joelle Pineau 也因反對這一做法而離職。
不過從目前公開的信息來看,這些說法經(jīng)不起推敲。關(guān)于使用測試集進(jìn)行后訓(xùn)練一事,前文的回應(yīng)其實(shí)已經(jīng)基本澄清。而 Joelle Pineau 的離職發(fā)生在發(fā)布前兩天,但她并不負(fù)責(zé)生成式 AI 團(tuán)隊(duì),而是領(lǐng)導(dǎo) Meta Fundamental AI Research(FAIR)研究部門,與 Llama 4 項(xiàng)目并無直接關(guān)聯(lián)。
發(fā)布前幾天離職的 Joelle Pineau,圖/ Meta
在辟除這些輿論雜音之后,真正的問題才浮出水面。追根究底,Llama 4 的問題,不在于造假,而在于開源大模型競爭加劇下的失速。
過去兩年,Meta 憑借 Llama 2 和 Llama 3,逐步在開源模型市場上建立起「領(lǐng)先、可靠」的認(rèn)知。然而到了 Llama 4,情況已經(jīng)發(fā)生了巨大的變化,DeepSeek V3/R1 的發(fā)布扭轉(zhuǎn)了開源與閉源模型的差距,并且大大加速了開源模型的發(fā)展速度。
這讓原本作為「開源領(lǐng)導(dǎo)者」的 Llama 面臨更大的壓力。
盡管我們認(rèn)為前文爆料很多經(jīng)不起推敲,但有一點(diǎn)卻是現(xiàn)實(shí):Llama 4 確實(shí)有 Deadline。這一點(diǎn)從 Llama 4 Behemoth 還在訓(xùn)練中就得以窺見,而且在參數(shù)規(guī)模膨脹、架構(gòu)復(fù)雜化(MoE)的同時(shí),Llama 4 很可能沒有留出足夠的測試和改進(jìn)時(shí)間,才導(dǎo)致發(fā)布后不穩(wěn)定的性能表現(xiàn)。
圖/ Meta
此外,Meta 也沒能控制住動(dòng)作的變形。Llama-4-Maverick-03-26-Experimental 針對對話模式的優(yōu)化本身無可厚非,但「首發(fā)」Chatbot Arena 的目的卻是路人皆知。我們也不知道,這個(gè)特調(diào)版本又犧牲了哪些?
而從目前來看,Meta 的做法顯然錯(cuò)了,經(jīng)過能在發(fā)布之處獲得更高的期待、更多的關(guān)注,但之后的實(shí)際表現(xiàn)不僅讓人更加失望,也打破了用戶對 Llama 系列「領(lǐng)先、可靠」的認(rèn)知。
怎么看都是輸。
Meta 當(dāng)然還有機(jī)會(huì)補(bǔ)救。只是,它首先必須正面面對 DeepSeek、Qwen、Gamma 等其他大模型已經(jīng)崛起、甚至超越自己的現(xiàn)實(shí),才能談重整河山。
來源:雷科技
原文標(biāo)題 : 從高光到塌房,Meta Llama 4 遭遇驚魂72小時(shí)

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?