AI視頻模型大混戰(zhàn),誰是你的 No.1?
自從Sora發(fā)布以來,AI視頻模型的“魔盒”被徹底打開。今年上半年,AI視頻模型遍地開花,Viggle、Genmo、即夢(mèng)、Dream Machine、可靈輪番炸場(chǎng)。
這么多的AI視頻模型,在讓人眼花繚亂的同時(shí),也帶來了一個(gè)疑問:誰才是AI視頻模型的No.1?
烏鴉君也非常好奇各款產(chǎn)品表現(xiàn)優(yōu)劣。剛好上周三Runaway宣布Gen-3 Alpha向所有用戶開放測(cè)試,借著這個(gè)契機(jī),烏鴉君就把市面上開放的AI視頻模型都拉過來測(cè)一測(cè)。
參與此次測(cè)試的選手有7位,涵蓋了AI視頻領(lǐng)域的國內(nèi)外名將、新星,其中國外的包括Gen-3 Alpha、Dream Machine、Genmo、Pika 1.0,國內(nèi)AI視頻的代表則是愛詩科技的PixVerse、快手的可靈和字節(jié)跳動(dòng)的即夢(mèng)。
結(jié)合測(cè)試結(jié)果和個(gè)人體感,烏鴉君得到以下三個(gè)結(jié)論:
1.可靈的綜合體驗(yàn)最好,信息準(zhǔn)確度高、視頻時(shí)長和質(zhì)量穩(wěn)定性上都有著不錯(cuò)的表現(xiàn),偶有瑕疵。
2.即夢(mèng)、PixVerse、Gen-3 Alpha和Dream Machine四家普遍在人物一致性和物理邏輯上會(huì)有問題,繼續(xù)迭代一下,未來可期。
3. Genmo和Pika1.0則受限于發(fā)布時(shí)間較早,在語義理解能力、畫面平滑度、運(yùn)動(dòng)一致性等方面明顯落后于其他競(jìng)品,足見AI視頻迭代速度之快。
/ 01 / 三組Prompt,6個(gè)測(cè)評(píng)維度
測(cè)評(píng)會(huì)使用同一個(gè)Prompt,對(duì)不同AI視頻模型生成的結(jié)果進(jìn)行評(píng)判?紤]到AI視頻模型的表現(xiàn)可能會(huì)有波動(dòng),烏鴉君給出以下三組文生視頻提示詞,綜合評(píng)判表現(xiàn)效果。
考題1:我用《愛樂之城》的經(jīng)典畫面為基準(zhǔn),設(shè)定一個(gè)Prompt:Under the night sky, a girl in the yellow skirt are dancing with a man.(在夜空下,一位穿著黃色裙子的女人在和一個(gè)男人跳舞。)
考點(diǎn):對(duì)Prompt中提到的“夜空”“黃色裙子”“跳舞”等元素進(jìn)行生成,描繪出雙人跳舞的畫面,對(duì)人物動(dòng)作的協(xié)調(diào)性有一定要求。
考題2:我用Sora公布的一條視頻提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. (在熙熙攘攘的東京,白雪皚皚。鏡頭跟隨幾個(gè)人穿過城市街道,他們正享受美麗的下雪天,并在附近的攤位購物,絢麗的櫻花伴隨著雪花隨風(fēng)飄揚(yáng)。)
考點(diǎn):描繪鏡頭、人物和街道商販的動(dòng)態(tài),并保持著雪花和櫻花一同飄落的效果。
考題3:我改寫了一條Sora公布的電影預(yù)告片風(fēng)格提示詞:A movie trailer featuring the adventures of the 20 year old space man wearing a transparent fish tank, blue sky, desert, cinematic style, shot on 35mm film, vivid colors. (影片講述了20歲太空人的冒險(xiǎn)經(jīng)歷,他戴著透明的魚缸,背后是藍(lán)天、沙漠,電影風(fēng)格,35毫米膠片拍攝,色彩鮮艷。)
考點(diǎn):消化電影預(yù)告片的風(fēng)格,細(xì)膩描畫人物,還原藍(lán)天、沙漠等場(chǎng)景,也考驗(yàn)AI對(duì)于科幻故事的想象力。
測(cè)試方法
評(píng)判的維度包括六個(gè)層面,分別是語義理解、圖像質(zhì)量、物理邏輯、一致性、風(fēng)格創(chuàng)意、易用性。每個(gè)層面根據(jù)視頻表現(xiàn)來評(píng)分,總分6分。
1、【語義理解】視頻結(jié)果和Prompt的描述是否一致,一致得1分。
2、【圖像質(zhì)量】圖像質(zhì)量的考量包括清晰度、分辨率、色彩準(zhǔn)確性和動(dòng)態(tài)范圍,表現(xiàn)較佳得1分。
3、【物理邏輯】視頻內(nèi)容符合基本的物理常識(shí),得1分。
4、【一致性】保持物體和場(chǎng)景的一致性和連續(xù)性,得1分。
5、【風(fēng)格創(chuàng)意】畫面有風(fēng)格或創(chuàng)意,得1分。
6、【易用性】產(chǎn)品體驗(yàn)友好,得1分。
以下評(píng)測(cè)基于我個(gè)人主觀判斷,結(jié)果僅供參考,有不同看法歡迎討論。
/ 02 / 測(cè)評(píng)結(jié)果和簡單分析
1、Gen-3 Alpha,綜合得分:4分
和上一代Gen-2相比,Gen-3 Alpha面對(duì)復(fù)雜指令的敏感度更高,能夠處理更復(fù)雜的場(chǎng)景。
從視頻畫面來看,Gen-3 Alpha整體控制得很好,具備很高的保真度,能夠生成逼真的人類角色和動(dòng)態(tài)場(chǎng)景。
畫面準(zhǔn)確展示了雙人舞動(dòng)的動(dòng)態(tài)、東京街頭紛飛的雪景,質(zhì)感很接近影視效果,在畫面紋理、鏡頭視角控制等方面的表現(xiàn)也很突出。
在風(fēng)格和創(chuàng)意上,Gen-3 Alpha明顯超越其他AI視頻,風(fēng)格堪稱大片級(jí)。
值得注意的是,Gen-3 Alpha在物理邏輯上存在瑕疵,比如,第1題中的人物在跳舞時(shí)手部動(dòng)作相對(duì)失真;同時(shí),女人在跳舞轉(zhuǎn)身后,腦袋上出現(xiàn)了男人的臉,bug明顯。
易用性方面, Gen-3 Alpha可以進(jìn)行細(xì)節(jié)控制,支持多種視頻生成和控制工具,F(xiàn)在Runaway已將Gen-3 Alpha開放給所有C端用戶,月費(fèi)會(huì)員15美元,每月只能生成約60秒的視頻,相當(dāng)于4s視頻就要消耗1美元。
2、 Dream Machine,綜合得分:4分
Dream Machine是Luma AI在6月中旬發(fā)布的產(chǎn)品,目前只能生成5秒的視頻,且生成的過程很漫長,但這不妨礙網(wǎng)友排隊(duì)用這個(gè)免費(fèi)AI來二創(chuàng)梗圖的熱情。
從視頻畫面上看,除了第一個(gè)視頻沒有展示夜空外,Dream Machine的表現(xiàn)基本與Prompt的描述相符,勉強(qiáng)可以算合格,人物一致性也沒有問題。
圖像質(zhì)量整體控制的不錯(cuò),Dream Machine在后兩個(gè)視頻也展示了其專業(yè)的拍攝角度,鏡頭模擬幾乎達(dá)到電影級(jí)水準(zhǔn)。
美中不足的是,Dream Machine在物理邏輯上表現(xiàn)很差。無論是第一個(gè)視頻里毫無美感的舞蹈,還是第三個(gè)視頻里怪異的走路姿勢(shì),都說明Dream Machine當(dāng)下很難理解物理邏輯,甚至連簡單動(dòng)作的動(dòng)態(tài)輸出都有問題。
在使用便利性上,用戶只需前往官網(wǎng)點(diǎn)擊“Try Now”按鈕,按要求登錄谷歌賬號(hào),然后在提示欄中輸入文字或圖片,靜靜等待即可。如果用戶一時(shí)半會(huì)想不到提示詞,還可以在系統(tǒng)預(yù)先準(zhǔn)備的六條中進(jìn)行選擇,十分好操作。
3、 Genmo,綜合得分:2分
作為去年11月發(fā)布的一款免費(fèi)AI視頻工具,Genmo的表現(xiàn)就相對(duì)遜色許多。
先說語義理解,就基本不合格。在第一個(gè)視頻里,畫面顯示的是夕陽西下,日照金山,并不符合指令中“夜空下”的要求。而在第二個(gè)視頻里,Genmo也完全沒有呈現(xiàn)Prompt里的“白雪皚皚”和“下雪天”,反而把環(huán)境變成了粉色的櫻花。
在物理邏輯和一致性上,Genmo同樣表現(xiàn)不佳。這一點(diǎn)在其作答第1題時(shí)體現(xiàn)得很清晰,畫面開始女生的長頭發(fā)出現(xiàn)在男生的頭上,跳舞過程中,雙方的手在運(yùn)動(dòng)過程中也出現(xiàn)了多次瞬移。
要說優(yōu)點(diǎn),Genmo在圖像質(zhì)量上的表現(xiàn)勉強(qiáng)合格,在第1題中做了比較多的光影渲染。易用方面,Genmo也做到了保姆級(jí)別,提供了直觀清晰的界面,不僅可以調(diào)整視頻片段的持續(xù)長度、平滑度、變化程度等,還可以模擬相機(jī)運(yùn)動(dòng),比如進(jìn)行畫面放大/縮小、順/逆時(shí)針旋轉(zhuǎn)、平移、傾斜等操作,簡化了視頻生成過程。
4、 Pika1.0,綜合得分:1分
說真的,烏鴉君對(duì)這款明星產(chǎn)品此次的表現(xiàn)非常失望。
首先,Pika很難理解復(fù)雜的指令。比如,Pika在第3題直接給我個(gè)大魚缸,甚至連“太空人”、“沙漠”等元素都不見了。同時(shí),現(xiàn)在Pika只能生成3秒的視頻,是參評(píng)工具生成的視頻中最短的。
在畫面質(zhì)量上,無論是東京雪景還是雙人舞蹈,紋理較差,Pika的畫面都簡陋得像動(dòng)畫建模的初學(xué)作品。
另外,Pika在物理邏輯和一致性上也同樣存在問題,例如第1題中的人物動(dòng)作模糊、肢體粘連,人物的臉部沒有細(xì)節(jié),甚至右側(cè)的男生在跳舞時(shí)就干脆一動(dòng)不動(dòng),像個(gè)木頭人。
Pika唯一的優(yōu)勢(shì)在于,創(chuàng)作相對(duì)方便,單次文生成視頻的過程大約消耗30s,算是比較快的。用戶可以選擇視頻尺寸和幀率,并對(duì)鏡頭的運(yùn)動(dòng)方向和物體的運(yùn)動(dòng)速度進(jìn)行控制。今年3月,Pika還上線了無縫生成音效的Sound Effects功能,提高了工具便捷性。
5、 PixVerse,綜合得分:4分
由字節(jié)前視覺技術(shù)負(fù)責(zé)人王長虎創(chuàng)立的愛詩科技,在今年1月推出了PixVerse。到今年3月,PixVerse的月訪問量超百萬。PixVerse基本能夠準(zhǔn)確理解Prompt的意思,并給出相應(yīng)的畫面。
從視頻質(zhì)量上來看,PixVerse始終表現(xiàn)得很穩(wěn)定,畫面整體和諧,也不乏亮點(diǎn)。比如,作答第3題時(shí),PixVerse生成的視頻出現(xiàn)大多數(shù)AI視頻里沒有的運(yùn)動(dòng)鏡頭,而背景畫面依舊保持著較高的質(zhì)量。
另外,PixVerse也很擅長對(duì)人物面部細(xì)節(jié)的刻畫,第3題的視頻中,太空人擁有“緊皺的眉頭”和“思索的神情”,看起來十分靈動(dòng)。
不足的地方在于,PixVerse幾乎沒有任何人物動(dòng)作的畫面。在第1題中,除了手部輕微的動(dòng)作外,根本看不到任何舞蹈的動(dòng)作,而且女人似乎也只有一只腿。而且,在第2題中,PixVerse生成視頻的行人走路動(dòng)作也相對(duì)模糊,說明其在物理邏輯存在問題。
易用性方面,PixVerse的“Upscale”功能,讓用戶不用花錢,就能提高視頻分辨率。用戶也可以瀏覽熱門作品,查看它們的詳細(xì)參數(shù)信息,包括關(guān)鍵詞、種子、畫面的縱橫比、運(yùn)動(dòng)幅度、風(fēng)格以及原始圖片,學(xué)習(xí)和模仿優(yōu)秀作品。
6、可靈,綜合得分:5分
快手推出的可靈大模型采用了與Sora相似的技術(shù)路線。從視頻畫面來看,可靈的表現(xiàn)非常穩(wěn)定,能準(zhǔn)確完成指令,整段30秒視頻沒有出現(xiàn)太大的偏差,只是遺漏了第2題中的“飄雪”指令。
可靈的畫面質(zhì)量超出了我的預(yù)期。它對(duì)樹木、星空、雪景等自然景觀模擬得很到位,還在第2題中努力做出人臉等細(xì)節(jié),看得出可靈是想做出接近實(shí)拍的效果,它的一致性也沒什么問題。在風(fēng)格和創(chuàng)意方面,與其他AI中較夸張的動(dòng)漫、電影藝術(shù)風(fēng)格相比,可靈的實(shí)拍風(fēng)格算是獨(dú)樹一幟。
但是,可靈在理解物理世界方面仍然存在一些小瑕疵。例如,第1題中的女孩在跳舞抬腿動(dòng)作時(shí),出現(xiàn)了模糊和瞬移,不過相比其他模型,可靈在物理理解上的表現(xiàn)得算是優(yōu)秀了。
在易用性方面,可靈的優(yōu)勢(shì)比較明顯,它現(xiàn)在有了更加清晰的高畫質(zhì)版,以及首尾幀控制、鏡頭控制等新功能,且創(chuàng)作者單次生成的文生視頻時(shí)長增加至10秒,官方還上線了加快生成模式,提供給會(huì)員使用。
7、即夢(mèng),綜合得分:4分
即夢(mèng)是抖音前CEO張楠親自掛帥的剪映所推出的產(chǎn)品,它在時(shí)長上比別的AI要高一截,單次可以生成12秒視頻,是這次參評(píng)工具中最長的。
即夢(mèng)基本能準(zhǔn)確識(shí)別Prompt中的關(guān)鍵詞;畫面質(zhì)量,比較細(xì)膩。
例如,第2題中的東京街景描畫得非常優(yōu)美。在風(fēng)格創(chuàng)意方面,即夢(mèng)也能做到讓人眼前一亮的效果,比如在第3題中,即夢(mèng)對(duì)透明魚缸頭盔、宇航服的描畫很有科幻色彩。
與很多AI視頻模型一樣,對(duì)物理世界的理解是即夢(mèng)的短板,完成運(yùn)動(dòng)幅度較大的視頻時(shí),即夢(mèng)會(huì)出現(xiàn)較為明顯的崩壞,例如作答第1題時(shí)的表現(xiàn)。從一致性上來看,即夢(mèng)也存在問題,比如第2題的東京街頭,不少人在轉(zhuǎn)身之后都出現(xiàn)了另一張臉。
在易用性方面,即夢(mèng)視頻支持各種變焦、搖鏡等運(yùn)鏡控制,還有更多的尺寸選擇,操作上也很簡單,非常適合愛玩視頻的抖友們。
/ 03 / 最終的測(cè)試結(jié)果:
高分組:可靈
中分組:即夢(mèng)、PixVerse、Gen-3 Alpha、Dream Machine
低分組:Genmo、Pika1.0
原文標(biāo)題 : AI視頻模型大混戰(zhàn),誰是你的 No.1?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?