國(guó)內(nèi)AI視頻主要玩家落座,進(jìn)入商業(yè)模式PK環(huán)節(jié)
前言:
經(jīng)過(guò)長(zhǎng)達(dá)半年的不懈努力,國(guó)內(nèi)在大型人工智能模型領(lǐng)域的發(fā)展終于迎來(lái)了關(guān)鍵時(shí)刻。
從人工智能驅(qū)動(dòng)的舞蹈表演、火柴人動(dòng)畫(huà)的創(chuàng)作,到能夠生成時(shí)長(zhǎng)為5至16秒的高質(zhì)量視頻,AI視頻生成技術(shù)的整體水平已經(jīng)實(shí)現(xiàn)了質(zhì)的飛躍。
國(guó)內(nèi)AI視頻市場(chǎng)的主要玩家已經(jīng)基本確立,并且進(jìn)入了商業(yè)模式的PK環(huán)節(jié)。
作者 | 方文三
圖片來(lái)源 | 網(wǎng) 絡(luò)
DiT技術(shù)架構(gòu)已成為AI視頻領(lǐng)域主流
此前,AI視頻生成的技術(shù)路徑主要分為兩類(lèi):一類(lèi)是擴(kuò)散模型技術(shù)路徑,主要參與者包括Runway、Pika Labs等;
另一類(lèi)是基于Transformer架構(gòu)的大語(yǔ)言模型生成視頻的技術(shù)路徑。
去年12月底,谷歌發(fā)布了基于大語(yǔ)言模型的生成式AI視頻模型VideoPoet,這被視為在擴(kuò)散模型之外,為視頻生成領(lǐng)域提供了另一種解決方案和可能性。
擴(kuò)散模型通過(guò)向圖片中引入噪聲,將其轉(zhuǎn)變?yōu)樵捡R賽克狀態(tài),隨后利用[神經(jīng)網(wǎng)絡(luò)]。
例如基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的UNet結(jié)構(gòu),從特定時(shí)間點(diǎn)的畫(huà)面中減去預(yù)測(cè)的噪聲,從而得到無(wú)噪聲的原始畫(huà)面,即最終生成的畫(huà)面。
兩種技術(shù)路徑各有優(yōu)劣,單一模型生成的視頻在時(shí)長(zhǎng)和畫(huà)面效果上難以實(shí)現(xiàn)根本性的突破。
Sora選擇了一種結(jié)合擴(kuò)散模型和Transformer模型的技術(shù)架構(gòu)體系——DiT(Diffusion+Transformer)架構(gòu)。
具體而言,Sora將擴(kuò)散模型中的U-Net架構(gòu)替換為T(mén)ransformer架構(gòu)。
因此,Sora發(fā)布后,DiT技術(shù)架構(gòu)已成為AI視頻領(lǐng)域玩家的主流技術(shù)架構(gòu)。
數(shù)據(jù)、算法、算力決定AI視頻成本
數(shù)據(jù)投入成本高昂。一貫重視版權(quán)的Adobe,在模型訓(xùn)練初期計(jì)劃向攝影師、藝術(shù)家購(gòu)買(mǎi)視頻,并根據(jù)視頻長(zhǎng)度付費(fèi),每分鐘費(fèi)用在2.60美元至7.25美元之間(約合人民幣20至50元/分鐘)。
訓(xùn)練一個(gè)AI大語(yǔ)言模型需要億級(jí)數(shù)量的參數(shù),而訓(xùn)練視頻模型所需的數(shù)據(jù)量更是有過(guò)之而無(wú)不及。
運(yùn)營(yíng)AI視頻應(yīng)用所需的算力成本同樣巨大。AI視頻無(wú)法像橋梁那樣通過(guò)邊際效應(yīng)來(lái)計(jì)算成本。
每個(gè)用戶(hù)都需要算力,用戶(hù)使用越多,算力需求就越大。
在數(shù)據(jù)成本和算力成本的雙重壓力下,AI視頻的參與者無(wú)法像大模型參與者那樣[慷慨]地直接降價(jià)。
如果草率地采取降價(jià)策略來(lái)[跑馬圈地],AI視頻參與者極有可能面臨資金被算力成本耗盡的風(fēng)險(xiǎn),同時(shí)用戶(hù)體驗(yàn)也可能受到影響,可謂兩頭不討好。
因此,大多數(shù)AI視頻參與者總是小心翼翼,選擇在增值功能上下功夫。
一份關(guān)于AI應(yīng)用定價(jià)策略的報(bào)告指出,只有26%的AI公司采用了Freemium的混合模式,絕大多數(shù)(71%)仍然采用傳統(tǒng)的SaaS訂閱定價(jià)模式。
智譜清影推出的則是[加速]模式。普通用戶(hù)使用清影是無(wú)限次免費(fèi)的,若想縮短排隊(duì)等待時(shí)間,可以購(gòu)買(mǎi)加速券,5元可加速一整天。
最具創(chuàng)意的定價(jià)模式莫過(guò)于月之暗面的Kimi大模型。
自今年三月起,Kimi一直穩(wěn)居國(guó)內(nèi)AI產(chǎn)品Top5,甚至一度因流量過(guò)大而宕機(jī)。
為了平衡用戶(hù)體驗(yàn)和算力需求,Kimi推出了打賞功能。
用戶(hù)可以通過(guò)支付5.20至399元不等的金額,獲得不同時(shí)間長(zhǎng)度的[高峰期優(yōu)先使用]功能。
不難看出,國(guó)內(nèi)AI產(chǎn)品對(duì)商業(yè)化模式的探索持開(kāi)放態(tài)度。
自身優(yōu)勢(shì)也影響了到產(chǎn)品特點(diǎn)
快手的可靈在人物姿態(tài)的自然流暢性方面表現(xiàn)突出,智譜清影和愛(ài)詩(shī)科技的PixVerse在色彩表現(xiàn)上更為鮮明。
特別是快手的可靈,依托快手平臺(tái)海量的視頻數(shù)據(jù)優(yōu)勢(shì),能夠迅速生成符合中文語(yǔ)境和審美習(xí)慣的視頻,主打?qū)ξ锢硎澜缣匦缘母邚?qiáng)度模擬,并成功解決了眾多AI難以攻克的[吃]的問(wèn)題。
生數(shù)科技的Vidu在動(dòng)作幅度和運(yùn)動(dòng)速度上更為顯著,而字節(jié)跳動(dòng)的即夢(mèng)則擅長(zhǎng)于動(dòng)畫(huà)風(fēng)格,能夠精確控制物體運(yùn)動(dòng)的速度。
智譜清影和生數(shù)科技的Vidu在生成速度上表現(xiàn)尤為出色,僅需30秒即可完成,而國(guó)內(nèi)外主流產(chǎn)品的生成時(shí)間大約為5分鐘左右。
字節(jié)跳動(dòng)旗下的剪映上線即夢(mèng)AI,在視頻生成的基礎(chǔ)上創(chuàng)新了故事模式,能夠從提示詞到角色、場(chǎng)景,實(shí)現(xiàn)從創(chuàng)意到成品的快速轉(zhuǎn)化。
此外,阿里達(dá)摩院的AI視頻產(chǎn)品[尋光]和百度的AI視頻模型UniVG雖然仍在內(nèi)測(cè)階段,但從官方發(fā)布的信息來(lái)看,二者在可控編輯、語(yǔ)義一致性等方面具有很大的潛力。
國(guó)內(nèi)產(chǎn)品生成高品質(zhì)內(nèi)容仍需升級(jí)
AI視頻生成面臨的挑戰(zhàn)包括準(zhǔn)確性、一致性和豐富性。實(shí)際體驗(yàn)效果與各公司發(fā)布的宣傳片之間存在較大差異。
若AI視頻生成技術(shù)想要實(shí)現(xiàn)商業(yè)應(yīng)用,仍需克服諸多挑戰(zhàn)。
目前,無(wú)論是國(guó)內(nèi)還是國(guó)際上的AI視頻生成技術(shù),大多數(shù)支持480p/720p分辨率的視頻生成,而支持1080p高清視頻的則相對(duì)較少。
素材的質(zhì)量和算力的高低直接影響生成視頻的品質(zhì)。
然而,即便擁有高質(zhì)量的素材和強(qiáng)大的算力,并不意味著能夠保證生成的視頻品質(zhì)。
使用低分辨率素材訓(xùn)練的模型若試圖生成高分辨率視頻,可能會(huì)導(dǎo)致視頻出現(xiàn)崩壞或重復(fù)現(xiàn)象,例如出現(xiàn)多手多腳的情況。
這類(lèi)問(wèn)題通常可以通過(guò)放大、修復(fù)和重繪等手段解決,但其效果和細(xì)節(jié)通常不盡如人意。
在國(guó)內(nèi),大多數(shù)AI視頻生成技術(shù)能夠支持2-3秒的視頻,能夠達(dá)到5-10秒的則屬于較為先進(jìn)的產(chǎn)品。
也有個(gè)別產(chǎn)品表現(xiàn)突出,例如即夢(mèng)技術(shù)可以生成長(zhǎng)達(dá)12秒的視頻。
但與Sora技術(shù)相比,后者曾宣稱(chēng)能夠生成長(zhǎng)達(dá)60秒的視頻,盡管目前尚未對(duì)外開(kāi)放使用,其具體表現(xiàn)尚無(wú)法驗(yàn)證。
除了視頻長(zhǎng)度,生成內(nèi)容的合理性同樣重要。
理論上,AI可以持續(xù)輸出視頻,甚至長(zhǎng)達(dá)一個(gè)小時(shí),但用戶(hù)通常需要的不是監(jiān)控視頻或循環(huán)播放的風(fēng)景畫(huà),而是具有精美畫(huà)面和故事性的短片。
即夢(mèng)技術(shù)雖然在視頻長(zhǎng)度上有所突破,但生成質(zhì)量并不理想,例如主角小女孩的形象在后期會(huì)出現(xiàn)變形。
Vega AI也存在類(lèi)似問(wèn)題;而PixVerse技術(shù)生成的畫(huà)質(zhì)較差。
相比之下,Morph技術(shù)在內(nèi)容準(zhǔn)確性上表現(xiàn)良好,但視頻時(shí)長(zhǎng)僅為2秒。
藝映技術(shù)的畫(huà)質(zhì)佳,但在理解文字方面存在不足,導(dǎo)致關(guān)鍵元素如兔子丟失,且生成的視頻風(fēng)格偏向漫畫(huà),缺乏寫(xiě)實(shí)感。
目前,許多宣稱(chēng)使用AI進(jìn)行全流程制作的影視短片,實(shí)際上采用的是圖像生成視頻或視頻到視頻的技術(shù)。
視頻的連貫性至關(guān)重要,許多AI視頻工具通過(guò)單幀圖片預(yù)測(cè)后續(xù)動(dòng)作來(lái)實(shí)現(xiàn)視頻轉(zhuǎn)換,但預(yù)測(cè)的準(zhǔn)確性目前仍依賴(lài)于運(yùn)氣。
在實(shí)現(xiàn)視頻中主角一致性方面,各家技術(shù)并非完全依賴(lài)數(shù)據(jù)生成。
然而,目前這些技術(shù)仍在探索階段,即便進(jìn)行了技術(shù)疊加,人物一致性問(wèn)題仍未得到完全解決。
目前生成時(shí)長(zhǎng)與效果差異不大
目前,市面上主流的AI視頻工具主要生成時(shí)長(zhǎng)在4秒至10秒左右的視頻片段。
Vidu效果生數(shù)科技此次推出的Vidu開(kāi)放文生視頻、圖生視頻兩項(xiàng)功能,提供了4秒和8秒兩種時(shí)長(zhǎng)選項(xiàng),最高支持1080P的分辨率。
在處理速度方面,實(shí)測(cè)生成一段4秒視頻片段僅需30秒。
愛(ài)詩(shī)科技的PixVerse V2能夠支持生成單個(gè)時(shí)長(zhǎng)為8秒的視頻片段,并且具備一鍵生成1至5段連續(xù)視頻內(nèi)容的功能,確保片段間主體形象、畫(huà)面風(fēng)格及場(chǎng)景元素保持一致。
智譜AI的智譜清影能夠制作出時(shí)長(zhǎng)為6秒的視頻,制作時(shí)間大約為30秒,清晰度可達(dá)到1440x960(3:2)。
快手可靈生成的視頻時(shí)長(zhǎng)為5秒,但其具備將視頻時(shí)長(zhǎng)擴(kuò)展的功能,可以將視頻時(shí)長(zhǎng)延長(zhǎng)至10秒。
然而,在視頻生成速度上,快手可靈相對(duì)較慢,通常需要2至3分鐘的時(shí)間。
從技術(shù)積累的角度審視,盡管?chē)?guó)內(nèi)人工智能視頻生成企業(yè)均在布局DiT架構(gòu),但相較于Sora的水平,它們?cè)谝曨l生成的時(shí)長(zhǎng)和效果方面仍處于追趕狀態(tài)。
國(guó)內(nèi)AI視頻大模型已經(jīng)開(kāi)啟了商業(yè)探索
相較于聊天機(jī)器人工具如ChatGPT,AI視頻生成被視為大模型技術(shù)商業(yè)化的黃金賽道。
其成為黃金賽道的原因主要有兩個(gè)方面:首先,AI視頻生成工具本身具有明顯的收費(fèi)優(yōu)勢(shì)。
目前,多數(shù)AI視頻生成工具面向消費(fèi)者端用戶(hù)采用會(huì)員制度。
以可靈為例,其會(huì)員分為黃金、鉑金、鉆石三個(gè)等級(jí);
經(jīng)過(guò)優(yōu)惠后,三檔月卡的價(jià)格分別為33元、133元和333元,分別提供660、3000、8000[靈感值],可生成大約66個(gè)、300個(gè)或800個(gè)標(biāo)準(zhǔn)視頻。
智譜清影推出的定價(jià)策略如下:在首發(fā)測(cè)試期間,所有用戶(hù)均可免費(fèi)體驗(yàn);
支付5元,可獲得一天(24小時(shí))的高速通道權(quán)益;
支付199元,則可解鎖一年的高速通道權(quán)益。然而,AI視頻生成領(lǐng)域的商業(yè)化目前仍處于起步階段。
對(duì)于企業(yè)級(jí)用戶(hù),這些工具支持通過(guò)調(diào)用API接口進(jìn)行收費(fèi)。
例如智譜AI,除了會(huì)員制收費(fèi)方式外,還在開(kāi)放平臺(tái)上開(kāi)放API接口,收取一定費(fèi)用。
另一方面,AI視頻生成工具模糊了創(chuàng)作者與消費(fèi)者之間的界限,特別是在快手和抖音等平臺(tái)上,視頻博主既是消費(fèi)者,也可以利用AI視頻工具進(jìn)行創(chuàng)作,轉(zhuǎn)變?yōu)橐曨l生產(chǎn)方。
這種大C小B的消費(fèi)者群體極為重要,甚至可能是最關(guān)鍵的,ToB和ToC的界限日益模糊。
然而,從商業(yè)生態(tài)的角度來(lái)看,大型企業(yè)和初創(chuàng)企業(yè)在變現(xiàn)策略上存在差異。
像抖音、快手這樣的行業(yè)領(lǐng)先視頻平臺(tái),可以利用其龐大的用戶(hù)基礎(chǔ),通過(guò)提供AI視頻生成工具,鼓勵(lì)用戶(hù)創(chuàng)作相關(guān)內(nèi)容,從而豐富自身的視頻生態(tài)體系。
這些大型平臺(tái)無(wú)需直接銷(xiāo)售工具,而是通過(guò)用戶(hù)實(shí)現(xiàn)商業(yè)化變現(xiàn)。
對(duì)于初創(chuàng)企業(yè)而言,直接銷(xiāo)售工具在中國(guó)市場(chǎng)并不現(xiàn)實(shí),未來(lái)可能只有行業(yè)巨頭才有機(jī)會(huì),因?yàn)樗鼈儞碛旋嫶蟮挠脩?hù)群體。
對(duì)于大模型初創(chuàng)企業(yè)來(lái)說(shuō),如果僅限于銷(xiāo)售工具,在中國(guó)只能面向ToB,而不能面向ToC。
只有面向企業(yè)端,才是實(shí)現(xiàn)商業(yè)化變現(xiàn)的可行途徑。
企業(yè)愿意為此付費(fèi)的原因在于,它們能夠通過(guò)視頻實(shí)現(xiàn)商業(yè)交付,產(chǎn)生收益,以支持相應(yīng)的成本支出。
因此,在AI視頻的商業(yè)化過(guò)程中,消費(fèi)者端的成功更多地屬于行業(yè)巨頭,而創(chuàng)業(yè)者的機(jī)遇則在于企業(yè)端。
目前,C端用戶(hù)利用AI視頻大模型平臺(tái)開(kāi)發(fā)的視頻應(yīng)用缺乏明確的指向性,平臺(tái)本身亦難以預(yù)測(cè)C端用戶(hù)將如何運(yùn)用這些視頻。
互聯(lián)網(wǎng)巨頭很可能將扮演引領(lǐng)者的角色
核心競(jìng)爭(zhēng)要素在于數(shù)據(jù)、場(chǎng)景和用戶(hù)。數(shù)據(jù)是訓(xùn)練高質(zhì)量模型的關(guān)鍵,而場(chǎng)景決定了產(chǎn)品的市場(chǎng)適應(yīng)性和商業(yè)潛力,互聯(lián)網(wǎng)巨頭在這三個(gè)維度均占優(yōu)勢(shì)。
目前,移動(dòng)互聯(lián)網(wǎng)月活躍用戶(hù)增長(zhǎng)放緩,而AIGC APP的月活躍用戶(hù)快速增長(zhǎng),2024年6月滲透率提升至5%,并仍有提升空間。
未來(lái)的流量分配格局將很大程度由人工智能主導(dǎo),用戶(hù)將天然地流向更好用、更有趣、更低門(mén)檻的內(nèi)容消費(fèi)平臺(tái)。
這解釋了為什么字節(jié)跳動(dòng)、快手高度重視視頻生成項(xiàng)目。字節(jié)跳動(dòng)將剪映定位為P0級(jí)項(xiàng)目,由原CEO張楠帶隊(duì);
快手則將[可靈]定位于戰(zhàn)略級(jí)項(xiàng)目,由技術(shù)大牛萬(wàn)鵬飛帶隊(duì),獲得程一笑的支持,集全公司數(shù)據(jù)、算力和資金資源。
另一方面,專(zhuān)業(yè)的全流程影視創(chuàng)作平臺(tái)仍然具有較強(qiáng)的用戶(hù)壁壘。
結(jié)尾:
根據(jù)頭豹研究院提供的數(shù)據(jù),2021年中國(guó)AI視頻生成行業(yè)的市場(chǎng)規(guī)模為800萬(wàn)元,預(yù)計(jì)到2026年,市場(chǎng)規(guī)模將增長(zhǎng)至92.79億元。
根據(jù)啟明創(chuàng)投的數(shù)據(jù),2023年一級(jí)市場(chǎng)中AI投資金額達(dá)到了224億美元,超過(guò)了前十年投資的累計(jì)總和。
眾多行業(yè)專(zhuān)家預(yù)測(cè),2024年將是AI視頻生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn),即所謂的[Midjourney時(shí)刻]。
部分資料參考:太平洋科技:《價(jià)格定得好,國(guó)產(chǎn)Sora們躺著跑》,東西文娛:《AI視頻的六月:玩家就位》,定焦:《半年過(guò)去,AI視頻卷到哪兒了?》,光錐智能:《爆[卷]的AI視頻,大廠向左,創(chuàng)企向右》,科技新知:《實(shí)測(cè)4款國(guó)產(chǎn)頭部AI視頻大模型》,中信建投證券研究:《國(guó)產(chǎn)AI視頻:可用度強(qiáng)性?xún)r(jià)比高,快手可靈開(kāi)啟C端付費(fèi)》,第一新聲:《探秘視頻生成大模型:誰(shuí)將成為下一個(gè)風(fēng)口王者?》,億邦動(dòng)力:《AI視頻爆發(fā)!一天10萬(wàn)條,沖進(jìn)抖音快手小紅書(shū)》,第一財(cái)經(jīng):《視頻生成混戰(zhàn):在[GPT-3]時(shí)代,[大家看不懂的時(shí)候要先上]》
原文標(biāo)題 : AI芯天下丨深度丨國(guó)內(nèi)AI視頻主要玩家落座,進(jìn)入商業(yè)模式PK環(huán)節(jié)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?