訂閱
糾錯(cuò)
加入自媒體

視頻大模型“造夢機(jī)器”爆紅:瑕疵真不少,關(guān)鍵是能用!

2024-06-14 13:29
雷科技
關(guān)注

比不上Sora,但你可以免費(fèi)用。

WechatIMG458.jpg

過去半年,AI 生成視頻一直處在斷斷續(xù)續(xù)推進(jìn)的狀態(tài)。在 OpenAI 年初推出 Sora 時(shí)引發(fā)空前討論之后,號稱國內(nèi)首個(gè)自研視頻大模型的 Vidu,以及后續(xù)字節(jié)、騰訊、快手等多家國產(chǎn)廠商推出視頻生成模型,都在時(shí)不時(shí)引發(fā)外界的關(guān)注。就在前幾天,雷科技還對快手的視頻大模型「可靈」進(jìn)行了內(nèi)測體驗(yàn)。

不過,這兩天 AI 生成視頻確實(shí)又火了。

一發(fā)布就火,「造夢機(jī)器」燒遍社交網(wǎng)絡(luò)

6 月 12 日,初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢機(jī)器),并且面向公眾開放測試。很快,不僅官方放出的一系列樣片,社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過「造夢機(jī)器」生成的視頻。

比如現(xiàn)代風(fēng)格的樣片,它在少女和貓的呈現(xiàn)效果上水準(zhǔn)相當(dāng)高,尤其是貓的頭部和眼部動作。

Twitter Video.gif

圖片經(jīng)過壓縮,圖/ Luma AI

還有奇幻風(fēng)格的,生成的人物或者物體也確實(shí)奇幻,甚至有些克蘇魯?shù)奈兜馈?/p>

Twitter Video 1800926036177174528.gif

圖片經(jīng)過壓縮、剪輯,圖/ Luma AI

此外,「造夢機(jī)器」不僅支持通過文本生成視頻,也支持基于圖片和文本生成視頻,所以你還能看到從《戴珍珠耳環(huán)的少女》中跳出的少女,還有房地產(chǎn)中介可能會喜歡的「如何讓景觀圖變成景觀視頻」。

甚至,有人已經(jīng)開始利用「造夢機(jī)器」創(chuàng)造一個(gè)講述「一日生活」的影像故事,包括美國中學(xué)生從早起到上學(xué)再到舞會的刻畫。

不只是用戶玩得開,海外和國內(nèi)媒體也都注意到了「造夢機(jī)器」的熱度。不過有一說一,有些國內(nèi)媒體明顯吹過了頭,什么超越 Sora、比 Sora 更真實(shí)流暢,這些我們先稍后再談,但「造夢機(jī)器」哪來的支持 120 秒生成視頻?

事實(shí)上,「造夢機(jī)器」只支持生成 5 秒的視頻,官網(wǎng)說的是生成視頻需要 120 秒,排隊(duì)等待的時(shí)間另說。而如果單獨(dú)打開官網(wǎng)上的樣片,也會發(fā)現(xiàn)一律都是 5 秒(除非有剪輯)。

SCR-20240613-rjsb.png

圖/ Luma AI

這個(gè)視頻時(shí)長,比起國產(chǎn)視頻大模型 Vidu 的 16 秒(最近又宣稱延長到了 32 秒的有聲視頻)就不用說了,更何況是將 AI 生成視頻時(shí)長突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息,Sora 能夠?qū)崿F(xiàn)視頻時(shí)長突破,主要功臣是其所采用的擴(kuò)散 Transformer 架構(gòu),在 Diffusion 擴(kuò)散模型的基礎(chǔ)上將 U-Net 架構(gòu)替換成了 Transformer 架構(gòu)。

「造夢機(jī)器」呢?目前 Luma AI 公司并未透露具體的情況。

當(dāng)然,5 秒的視頻時(shí)長你也不能說太短,因?yàn)槟壳按罅康囊曨l生成模型也只能生成 5 秒的視頻,包括宣稱可以生成最長 2 分鐘的快手可靈,至少目前也只能生成 5 秒的視頻。而且我們也不能只看「視頻時(shí)長」一個(gè)維度,還得看畫面的可用性以及使用潛力。

表現(xiàn)驚艷,但內(nèi)容可靠嗎?

坦率地講,「造夢機(jī)器」給小雷的第一印象還是挺驚艷的,首先感受下官方放出的樣片。

Dream Machine Video.gif

圖片經(jīng)過壓縮,圖/ Luma AI

比如這段中,在一個(gè)氛圍透露著危險(xiǎn)的房間,一個(gè)持槍的男子小心翼翼地前進(jìn)。

除了人物主體和背景的一致性,最讓人驚訝的可能是光照的變化。不僅是手槍上明顯的光線反射,在男子臉上,也可以看到原本詭譎的紅光在人物移動過程中,色溫逐漸由暖轉(zhuǎn)冷,并與鄰近光源趨同,包括亮度的變化也符合基本的物理規(guī)律。

還有一段是在一間廢棄的房屋中發(fā)生了爆炸,鏡頭由遠(yuǎn)及近。雖然還是會出現(xiàn)憑空固定的白色棒狀物,但在鏡頭移動的過程,不管是家具的不變,還是氣流變化引起的紙屑亂飛,都稱得上符合直覺。

另外「造夢機(jī)器」也展現(xiàn)了作為動畫創(chuàng)作工具的潛力,比如在一段視頻中,鏡頭從角色正面轉(zhuǎn)向背面,已經(jīng)很接近動畫創(chuàng)作中的特寫鏡頭。

Dream Machine 39.gif

圖片經(jīng)過壓縮,圖/ Luma AI

但是,這些終究還是官方「嚴(yán)選」出來的。不管是文字、圖片還是視頻生成模型,官方 Demo 肯定會經(jīng)過精挑細(xì)選找出相對較好的,這一點(diǎn)大家都能理解,但從普通用戶的角度,很容易代入誤以為是模型的平均水平。

在實(shí)際網(wǎng)友創(chuàng)作和分享的內(nèi)容中,即便是在那些相當(dāng)驚艷的少數(shù)作品中,你也能看到或多或少的錯(cuò)誤。

比如@minchoi 用「造夢機(jī)器」創(chuàng)作的美少女視頻,好幾段都完全媲美真人實(shí)拍。

SCR-20240613-rhow.png

圖/ X

不過,人物的手還是存在渲染問題,而且人物的形態(tài)還是會有一定的變化,在前面提到的《戴珍珠耳環(huán)的少女》視頻中更加明顯。

Amplify Video 180109.gif

圖片經(jīng)過壓縮,圖/ Luma AI

另外,一致性的問題還體現(xiàn)在風(fēng)格上,有的明明是 2D 動畫風(fēng)格,慢慢就開始往 3D 動畫的風(fēng)格轉(zhuǎn)。

Luma DIT 視頻生成模型 (1).gif

圖片經(jīng)過壓縮,圖/ Luma AI

小雷也試著用「造夢機(jī)器」創(chuàng)作了一段視頻,Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實(shí)際效果還是比較糟糕的:人物詭異的倒退,在背后拿著傘的怪異舉動,還有飛起來的雨傘。

Luma Dream Machine video (1).gif

圖片經(jīng)過壓縮,圖/ Luma AI

不過還是有一些優(yōu)點(diǎn)的,比如路面的倒影,背景和人物的一致性。

即便如此,這些問題說到底還是沒有攔住廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora,「造夢機(jī)器」至少公開可用,還有每個(gè)月 30 次的免費(fèi)生成機(jī)會。而相比大部分可用的視頻生成模型,「造夢機(jī)器」在一致性也有明顯的進(jìn)步。

而除了免費(fèi)用戶,「造夢機(jī)器」目前還提供三檔付費(fèi)選項(xiàng),包括 29.99 美元的標(biāo)準(zhǔn)檔、99.99 美元的專業(yè)檔以及 499.99 美元的高級檔,區(qū)別是每個(gè)月可以生成視頻的次數(shù)。

SCR-20240613-riji.png

圖/ Luma AI

對于普通用戶來說,這些定價(jià)可能有些離譜,但對于那些開始通過「造夢機(jī)器」創(chuàng)作視頻在 TikTok 上賺錢的創(chuàng)作者來說,估計(jì)還在接受范圍內(nèi)。

從 AI 畫圖到 AI 視頻,大模型再次混戰(zhàn)

AI 視頻不是從「造夢機(jī)器」開始的,當(dāng)然也不是從 Sora 開始的。事實(shí)上早在 2022 年,AI 繪畫已經(jīng)開始驚艷世界的時(shí)候,AI 視頻就開始吸引大量的關(guān)注。

首先我們需要回到 2022 年那個(gè)時(shí)間點(diǎn),彼時(shí) ChatGPT 還在醞釀(年底才發(fā)布),在大眾眼中,AI 技術(shù)發(fā)展最快速的領(lǐng)域當(dāng)屬 AI 繪畫。

2022 年 4 月,OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2,一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網(wǎng)絡(luò),讓一眾畫師真正有了「失業(yè)」的擔(dān)憂。

ea42b258921748c2a84f7d64cce74c35.jpg

圖/ OpenAI

包括之后的 Midjourney,它們在生成圖像方面相比之前的產(chǎn)品都有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚,憑借開源的優(yōu)勢,在用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E,在初期的進(jìn)步也最明顯。

事實(shí)上,當(dāng)時(shí) AI 繪畫已經(jīng)開始「侵入」社會的方方面面,不管是獲獎(jiǎng)的《太空歌劇院》(Midjourney 生成),還是各大公司開始嘗試通過 AI 繪畫直接生成廣告、海報(bào)甚至內(nèi)容作品。

圖片可以 AI 生成,視頻還會遠(yuǎn)嗎?眾所周知,視頻本質(zhì)上就是一幀一幀的圖片組成。所以在 2022 年,谷歌和 Meta 其實(shí)就開始了一場關(guān)于 AI 生成視頻的競爭,Meta 有 Make-A-Video,谷歌有 Imagen Video,二者都是通過文本直接生成視頻的視頻擴(kuò)散模型,底層還是 AI 繪圖那一套。

Google Meta Video Oct 10.gif

圖/ Meta

當(dāng)時(shí),AI 生成視頻時(shí)長都不超過 5 秒,分辨率也很低,同時(shí)畫面變化很小,與其說視頻,更像是讓圖片「動一動」。更重要的是,谷歌和 Meta 受限于大公司的身份和慣性,都沒有選擇開放給用戶以及創(chuàng)作者使用,更多還是研究成果的展示,影響范圍也基本局限在圈內(nèi)。

相比之下,Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司就顯得更加「靈活」。在去年發(fā)布的 Gen-2 上,Runway 不僅改進(jìn)了視頻生成的質(zhì)量,還增加了 Motion Slider(運(yùn)動滑塊)、Camera Motion (相機(jī)運(yùn)動)等功能,把更多視頻的控制權(quán)交給用戶。

去年火過一陣的 Pika 也是一款比較受關(guān)注的 AI 視頻生成工具,由于較高的畫面質(zhì)量甚至一度被稱為「視頻版 Midjourney」,同時(shí)相比 Runway Gen-2,Pika 為了確保內(nèi)容的可控性和擴(kuò)展性,還更進(jìn)一步給了創(chuàng)作者更多的控制權(quán),比如可以精細(xì)到眼部和表情的規(guī)劃生成。

此后,包括 Stable Diffusion 以及 Midjourney 也都陸續(xù)推出了生成視頻的版本,讓 AI 生成視頻進(jìn)入戰(zhàn)國時(shí)代。但不管是哪一家,就 AI 生成視頻的畫面表現(xiàn)來看其實(shí)沒有太大的差異,更多是產(chǎn)品層面的差異。

直到 Sora 帶著 Transformer 架構(gòu)出道即碾壓。

大語言模型,在改變 AI 視頻生成

Sora 引發(fā)的震撼和討論可謂有目共睹,甚至有人認(rèn)為 Sora 將是通往 AGI(通用人工智能)的快車道。Sora 是否能真正理解物理世界的運(yùn)行規(guī)律,我們先放在一邊不談,但可以肯定的是,Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。

SUV in the dust.gif

圖片經(jīng)過壓縮、剪輯,圖/ OpenAI

Sora 最震撼的技術(shù)突破之一在于其輸出的視頻時(shí)長,當(dāng)其他家普遍都只能生成數(shù)秒視頻的時(shí)候,Sora 就將時(shí)長突破了 60 秒。

事實(shí)上,包括最新發(fā)布的「造夢機(jī)器」也只能生成幾秒的視頻,一旦需要更長的視頻,第二次、第三次、第 N 次生成的視頻很容易出現(xiàn)變形,導(dǎo)致前后畫面差異過大,從而無法使用。

此外,AI 生成視頻還普遍存在基于時(shí)間的連貫性問題,但一段關(guān)于小狗的 Sora 生成視頻中,行人完全擋住畫面之后,小狗依然能保持住連貫性,主體也沒有發(fā)生明顯的變化。再有就是大家提過很多次的「模擬」,能夠很好地模擬符合物理世界規(guī)則的動作。

而 Sora 的這些優(yōu)勢很大程度上來源于架構(gòu)上的核心區(qū)別,所以在 Sora 之后,Transformer 架構(gòu)與擴(kuò)散模型相結(jié)合的全新技術(shù)路線很快受到了廣泛的關(guān)注,包括生數(shù)科技(聯(lián)合清華大學(xué))Vidu、愛詩科技 PixVerse、快手可靈也都采取了這一路線。

從這個(gè)角度來看,雖然 Luma AI 沒有公開「造夢機(jī)器」采用的架構(gòu)設(shè)計(jì),但結(jié)合在生成視頻中表現(xiàn)的一致性和邏輯表現(xiàn),很難相信「造夢機(jī)器」是在純擴(kuò)散模型上的產(chǎn)物,大概率,也是借鑒了 Sora 將 Transformer 架構(gòu)融入擴(kuò)散模型的做法。

當(dāng)然,這也只是一種猜測。但對 AI 視頻來說,這越來越成為一種必然。

來源:雷科技

       原文標(biāo)題 : 視頻大模型“造夢機(jī)器”爆紅:瑕疵真不少,關(guān)鍵是能用!

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號