視頻大模型“造夢機(jī)器”爆紅:瑕疵真不少,關(guān)鍵是能用!
過去半年,AI 生成視頻一直處在斷斷續(xù)續(xù)推進(jìn)的狀態(tài)。在 OpenAI 年初推出 Sora 時(shí)引發(fā)空前討論之后,號稱國內(nèi)首個(gè)自研視頻大模型的 Vidu,以及后續(xù)字節(jié)、騰訊、快手等多家國產(chǎn)廠商推出視頻生成模型,都在時(shí)不時(shí)引發(fā)外界的關(guān)注。就在前幾天,雷科技還對快手的視頻大模型「可靈」進(jìn)行了內(nèi)測體驗(yàn)。
不過,這兩天 AI 生成視頻確實(shí)又火了。
一發(fā)布就火,「造夢機(jī)器」燒遍社交網(wǎng)絡(luò)
6 月 12 日,初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢機(jī)器),并且面向公眾開放測試。很快,不僅官方放出的一系列樣片,社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過「造夢機(jī)器」生成的視頻。
比如現(xiàn)代風(fēng)格的樣片,它在少女和貓的呈現(xiàn)效果上水準(zhǔn)相當(dāng)高,尤其是貓的頭部和眼部動作。
圖片經(jīng)過壓縮,圖/ Luma AI
還有奇幻風(fēng)格的,生成的人物或者物體也確實(shí)奇幻,甚至有些克蘇魯?shù)奈兜馈?/p>
圖片經(jīng)過壓縮、剪輯,圖/ Luma AI
此外,「造夢機(jī)器」不僅支持通過文本生成視頻,也支持基于圖片和文本生成視頻,所以你還能看到從《戴珍珠耳環(huán)的少女》中跳出的少女,還有房地產(chǎn)中介可能會喜歡的「如何讓景觀圖變成景觀視頻」。
甚至,有人已經(jīng)開始利用「造夢機(jī)器」創(chuàng)造一個(gè)講述「一日生活」的影像故事,包括美國中學(xué)生從早起到上學(xué)再到舞會的刻畫。
不只是用戶玩得開,海外和國內(nèi)媒體也都注意到了「造夢機(jī)器」的熱度。不過有一說一,有些國內(nèi)媒體明顯吹過了頭,什么超越 Sora、比 Sora 更真實(shí)流暢,這些我們先稍后再談,但「造夢機(jī)器」哪來的支持 120 秒生成視頻?
事實(shí)上,「造夢機(jī)器」只支持生成 5 秒的視頻,官網(wǎng)說的是生成視頻需要 120 秒,排隊(duì)等待的時(shí)間另說。而如果單獨(dú)打開官網(wǎng)上的樣片,也會發(fā)現(xiàn)一律都是 5 秒(除非有剪輯)。
圖/ Luma AI
這個(gè)視頻時(shí)長,比起國產(chǎn)視頻大模型 Vidu 的 16 秒(最近又宣稱延長到了 32 秒的有聲視頻)就不用說了,更何況是將 AI 生成視頻時(shí)長突破到 60 秒的 Sora。
按照 OpenAI 官方公布的信息,Sora 能夠?qū)崿F(xiàn)視頻時(shí)長突破,主要功臣是其所采用的擴(kuò)散 Transformer 架構(gòu),在 Diffusion 擴(kuò)散模型的基礎(chǔ)上將 U-Net 架構(gòu)替換成了 Transformer 架構(gòu)。
「造夢機(jī)器」呢?目前 Luma AI 公司并未透露具體的情況。
當(dāng)然,5 秒的視頻時(shí)長你也不能說太短,因?yàn)槟壳按罅康囊曨l生成模型也只能生成 5 秒的視頻,包括宣稱可以生成最長 2 分鐘的快手可靈,至少目前也只能生成 5 秒的視頻。而且我們也不能只看「視頻時(shí)長」一個(gè)維度,還得看畫面的可用性以及使用潛力。
表現(xiàn)驚艷,但內(nèi)容可靠嗎?
坦率地講,「造夢機(jī)器」給小雷的第一印象還是挺驚艷的,首先感受下官方放出的樣片。
圖片經(jīng)過壓縮,圖/ Luma AI
比如這段中,在一個(gè)氛圍透露著危險(xiǎn)的房間,一個(gè)持槍的男子小心翼翼地前進(jìn)。
除了人物主體和背景的一致性,最讓人驚訝的可能是光照的變化。不僅是手槍上明顯的光線反射,在男子臉上,也可以看到原本詭譎的紅光在人物移動過程中,色溫逐漸由暖轉(zhuǎn)冷,并與鄰近光源趨同,包括亮度的變化也符合基本的物理規(guī)律。
還有一段是在一間廢棄的房屋中發(fā)生了爆炸,鏡頭由遠(yuǎn)及近。雖然還是會出現(xiàn)憑空固定的白色棒狀物,但在鏡頭移動的過程,不管是家具的不變,還是氣流變化引起的紙屑亂飛,都稱得上符合直覺。
另外「造夢機(jī)器」也展現(xiàn)了作為動畫創(chuàng)作工具的潛力,比如在一段視頻中,鏡頭從角色正面轉(zhuǎn)向背面,已經(jīng)很接近動畫創(chuàng)作中的特寫鏡頭。
圖片經(jīng)過壓縮,圖/ Luma AI
但是,這些終究還是官方「嚴(yán)選」出來的。不管是文字、圖片還是視頻生成模型,官方 Demo 肯定會經(jīng)過精挑細(xì)選找出相對較好的,這一點(diǎn)大家都能理解,但從普通用戶的角度,很容易代入誤以為是模型的平均水平。
在實(shí)際網(wǎng)友創(chuàng)作和分享的內(nèi)容中,即便是在那些相當(dāng)驚艷的少數(shù)作品中,你也能看到或多或少的錯(cuò)誤。
比如@minchoi 用「造夢機(jī)器」創(chuàng)作的美少女視頻,好幾段都完全媲美真人實(shí)拍。
圖/ X
不過,人物的手還是存在渲染問題,而且人物的形態(tài)還是會有一定的變化,在前面提到的《戴珍珠耳環(huán)的少女》視頻中更加明顯。
圖片經(jīng)過壓縮,圖/ Luma AI
另外,一致性的問題還體現(xiàn)在風(fēng)格上,有的明明是 2D 動畫風(fēng)格,慢慢就開始往 3D 動畫的風(fēng)格轉(zhuǎn)。
圖片經(jīng)過壓縮,圖/ Luma AI
小雷也試著用「造夢機(jī)器」創(chuàng)作了一段視頻,Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實(shí)際效果還是比較糟糕的:人物詭異的倒退,在背后拿著傘的怪異舉動,還有飛起來的雨傘。
圖片經(jīng)過壓縮,圖/ Luma AI
不過還是有一些優(yōu)點(diǎn)的,比如路面的倒影,背景和人物的一致性。
即便如此,這些問題說到底還是沒有攔住廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora,「造夢機(jī)器」至少公開可用,還有每個(gè)月 30 次的免費(fèi)生成機(jī)會。而相比大部分可用的視頻生成模型,「造夢機(jī)器」在一致性也有明顯的進(jìn)步。
而除了免費(fèi)用戶,「造夢機(jī)器」目前還提供三檔付費(fèi)選項(xiàng),包括 29.99 美元的標(biāo)準(zhǔn)檔、99.99 美元的專業(yè)檔以及 499.99 美元的高級檔,區(qū)別是每個(gè)月可以生成視頻的次數(shù)。
圖/ Luma AI
對于普通用戶來說,這些定價(jià)可能有些離譜,但對于那些開始通過「造夢機(jī)器」創(chuàng)作視頻在 TikTok 上賺錢的創(chuàng)作者來說,估計(jì)還在接受范圍內(nèi)。
從 AI 畫圖到 AI 視頻,大模型再次混戰(zhàn)
AI 視頻不是從「造夢機(jī)器」開始的,當(dāng)然也不是從 Sora 開始的。事實(shí)上早在 2022 年,AI 繪畫已經(jīng)開始驚艷世界的時(shí)候,AI 視頻就開始吸引大量的關(guān)注。
首先我們需要回到 2022 年那個(gè)時(shí)間點(diǎn),彼時(shí) ChatGPT 還在醞釀(年底才發(fā)布),在大眾眼中,AI 技術(shù)發(fā)展最快速的領(lǐng)域當(dāng)屬 AI 繪畫。
2022 年 4 月,OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2,一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網(wǎng)絡(luò),讓一眾畫師真正有了「失業(yè)」的擔(dān)憂。
圖/ OpenAI
包括之后的 Midjourney,它們在生成圖像方面相比之前的產(chǎn)品都有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚,憑借開源的優(yōu)勢,在用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E,在初期的進(jìn)步也最明顯。
事實(shí)上,當(dāng)時(shí) AI 繪畫已經(jīng)開始「侵入」社會的方方面面,不管是獲獎(jiǎng)的《太空歌劇院》(Midjourney 生成),還是各大公司開始嘗試通過 AI 繪畫直接生成廣告、海報(bào)甚至內(nèi)容作品。
圖片可以 AI 生成,視頻還會遠(yuǎn)嗎?眾所周知,視頻本質(zhì)上就是一幀一幀的圖片組成。所以在 2022 年,谷歌和 Meta 其實(shí)就開始了一場關(guān)于 AI 生成視頻的競爭,Meta 有 Make-A-Video,谷歌有 Imagen Video,二者都是通過文本直接生成視頻的視頻擴(kuò)散模型,底層還是 AI 繪圖那一套。
圖/ Meta
當(dāng)時(shí),AI 生成視頻時(shí)長都不超過 5 秒,分辨率也很低,同時(shí)畫面變化很小,與其說視頻,更像是讓圖片「動一動」。更重要的是,谷歌和 Meta 受限于大公司的身份和慣性,都沒有選擇開放給用戶以及創(chuàng)作者使用,更多還是研究成果的展示,影響范圍也基本局限在圈內(nèi)。
相比之下,Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司就顯得更加「靈活」。在去年發(fā)布的 Gen-2 上,Runway 不僅改進(jìn)了視頻生成的質(zhì)量,還增加了 Motion Slider(運(yùn)動滑塊)、Camera Motion (相機(jī)運(yùn)動)等功能,把更多視頻的控制權(quán)交給用戶。
去年火過一陣的 Pika 也是一款比較受關(guān)注的 AI 視頻生成工具,由于較高的畫面質(zhì)量甚至一度被稱為「視頻版 Midjourney」,同時(shí)相比 Runway Gen-2,Pika 為了確保內(nèi)容的可控性和擴(kuò)展性,還更進(jìn)一步給了創(chuàng)作者更多的控制權(quán),比如可以精細(xì)到眼部和表情的規(guī)劃生成。
此后,包括 Stable Diffusion 以及 Midjourney 也都陸續(xù)推出了生成視頻的版本,讓 AI 生成視頻進(jìn)入戰(zhàn)國時(shí)代。但不管是哪一家,就 AI 生成視頻的畫面表現(xiàn)來看其實(shí)沒有太大的差異,更多是產(chǎn)品層面的差異。
直到 Sora 帶著 Transformer 架構(gòu)出道即碾壓。
大語言模型,在改變 AI 視頻生成
Sora 引發(fā)的震撼和討論可謂有目共睹,甚至有人認(rèn)為 Sora 將是通往 AGI(通用人工智能)的快車道。Sora 是否能真正理解物理世界的運(yùn)行規(guī)律,我們先放在一邊不談,但可以肯定的是,Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。
圖片經(jīng)過壓縮、剪輯,圖/ OpenAI
Sora 最震撼的技術(shù)突破之一在于其輸出的視頻時(shí)長,當(dāng)其他家普遍都只能生成數(shù)秒視頻的時(shí)候,Sora 就將時(shí)長突破了 60 秒。
事實(shí)上,包括最新發(fā)布的「造夢機(jī)器」也只能生成幾秒的視頻,一旦需要更長的視頻,第二次、第三次、第 N 次生成的視頻很容易出現(xiàn)變形,導(dǎo)致前后畫面差異過大,從而無法使用。
此外,AI 生成視頻還普遍存在基于時(shí)間的連貫性問題,但一段關(guān)于小狗的 Sora 生成視頻中,行人完全擋住畫面之后,小狗依然能保持住連貫性,主體也沒有發(fā)生明顯的變化。再有就是大家提過很多次的「模擬」,能夠很好地模擬符合物理世界規(guī)則的動作。
而 Sora 的這些優(yōu)勢很大程度上來源于架構(gòu)上的核心區(qū)別,所以在 Sora 之后,Transformer 架構(gòu)與擴(kuò)散模型相結(jié)合的全新技術(shù)路線很快受到了廣泛的關(guān)注,包括生數(shù)科技(聯(lián)合清華大學(xué))Vidu、愛詩科技 PixVerse、快手可靈也都采取了這一路線。
從這個(gè)角度來看,雖然 Luma AI 沒有公開「造夢機(jī)器」采用的架構(gòu)設(shè)計(jì),但結(jié)合在生成視頻中表現(xiàn)的一致性和邏輯表現(xiàn),很難相信「造夢機(jī)器」是在純擴(kuò)散模型上的產(chǎn)物,大概率,也是借鑒了 Sora 將 Transformer 架構(gòu)融入擴(kuò)散模型的做法。
當(dāng)然,這也只是一種猜測。但對 AI 視頻來說,這越來越成為一種必然。
來源:雷科技
原文標(biāo)題 : 視頻大模型“造夢機(jī)器”爆紅:瑕疵真不少,關(guān)鍵是能用!

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?