123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

國內(nèi)AI視頻主要玩家落座，進入商業(yè)模式PK環(huán)節(jié)

2024-08-29 09:33

前言：

經(jīng)過長達半年的不懈努力，國內(nèi)在大型人工智能模型領(lǐng)域的發(fā)展終于迎來了關(guān)鍵時刻。

從人工智能驅(qū)動的舞蹈表演、火柴人動畫的創(chuàng)作，到能夠生成時長為5至16秒的高質(zhì)量視頻，AI視頻生成技術(shù)的整體水平已經(jīng)實現(xiàn)了質(zhì)的飛躍。

國內(nèi)AI視頻市場的主要玩家已經(jīng)基本確立，并且進入了商業(yè)模式的PK環(huán)節(jié)。

作者 | 方文三

圖片來源 | 網(wǎng) 絡(luò)

DiT技術(shù)架構(gòu)已成為AI視頻領(lǐng)域主流

此前，AI視頻生成的技術(shù)路徑主要分為兩類：一類是擴散模型技術(shù)路徑，主要參與者包括Runway、Pika Labs等；

另一類是基于Transformer架構(gòu)的大語言模型生成視頻的技術(shù)路徑。

去年12月底，谷歌發(fā)布了基于大語言模型的生成式AI視頻模型VideoPoet，這被視為在擴散模型之外，為視頻生成領(lǐng)域提供了另一種解決方案和可能性。

擴散模型通過向圖片中引入噪聲，將其轉(zhuǎn)變?yōu)樵捡R賽克狀態(tài)，隨后利用[神經(jīng)網(wǎng)絡(luò)]。

例如基于卷積神經(jīng)網(wǎng)絡(luò)（CNN）的UNet結(jié)構(gòu)，從特定時間點的畫面中減去預(yù)測的噪聲，從而得到無噪聲的原始畫面，即最終生成的畫面。

兩種技術(shù)路徑各有優(yōu)劣，單一模型生成的視頻在時長和畫面效果上難以實現(xiàn)根本性的突破。

Sora選擇了一種結(jié)合擴散模型和Transformer模型的技術(shù)架構(gòu)體系——DiT（Diffusion＋Transformer）架構(gòu)。

具體而言，Sora將擴散模型中的U-Net架構(gòu)替換為Transformer架構(gòu)。

因此，Sora發(fā)布后，DiT技術(shù)架構(gòu)已成為AI視頻領(lǐng)域玩家的主流技術(shù)架構(gòu)。

數(shù)據(jù)、算法、算力決定AI視頻成本

數(shù)據(jù)投入成本高昂。一貫重視版權(quán)的Adobe，在模型訓(xùn)練初期計劃向攝影師、藝術(shù)家購買視頻，并根據(jù)視頻長度付費，每分鐘費用在2.60美元至7.25美元之間（約合人民幣20至50元/分鐘）。

訓(xùn)練一個AI大語言模型需要億級數(shù)量的參數(shù)，而訓(xùn)練視頻模型所需的數(shù)據(jù)量更是有過之而無不及。

運營AI視頻應(yīng)用所需的算力成本同樣巨大。AI視頻無法像橋梁那樣通過邊際效應(yīng)來計算成本。

每個用戶都需要算力，用戶使用越多，算力需求就越大。

在數(shù)據(jù)成本和算力成本的雙重壓力下，AI視頻的參與者無法像大模型參與者那樣[慷慨]地直接降價。

如果草率地采取降價策略來[跑馬圈地]，AI視頻參與者極有可能面臨資金被算力成本耗盡的風(fēng)險，同時用戶體驗也可能受到影響，可謂兩頭不討好。

因此，大多數(shù)AI視頻參與者總是小心翼翼，選擇在增值功能上下功夫。

一份關(guān)于AI應(yīng)用定價策略的報告指出，只有26%的AI公司采用了Freemium的混合模式，絕大多數(shù)（71%）仍然采用傳統(tǒng)的SaaS訂閱定價模式。

智譜清影推出的則是[加速]模式。普通用戶使用清影是無限次免費的，若想縮短排隊等待時間，可以購買加速券，5元可加速一整天。

最具創(chuàng)意的定價模式莫過于月之暗面的Kimi大模型。

自今年三月起，Kimi一直穩(wěn)居國內(nèi)AI產(chǎn)品Top5，甚至一度因流量過大而宕機。

為了平衡用戶體驗和算力需求，Kimi推出了打賞功能。

用戶可以通過支付5.20至399元不等的金額，獲得不同時間長度的[高峰期優(yōu)先使用]功能。

不難看出，國內(nèi)AI產(chǎn)品對商業(yè)化模式的探索持開放態(tài)度。

自身優(yōu)勢也影響了到產(chǎn)品特點

快手的可靈在人物姿態(tài)的自然流暢性方面表現(xiàn)突出，智譜清影和愛詩科技的PixVerse在色彩表現(xiàn)上更為鮮明。

特別是快手的可靈，依托快手平臺海量的視頻數(shù)據(jù)優(yōu)勢，能夠迅速生成符合中文語境和審美習(xí)慣的視頻，主打?qū)ξ锢硎澜缣匦缘母邚姸饶M，并成功解決了眾多AI難以攻克的[吃]的問題。

生數(shù)科技的Vidu在動作幅度和運動速度上更為顯著，而字節(jié)跳動的即夢則擅長于動畫風(fēng)格，能夠精確控制物體運動的速度。

智譜清影和生數(shù)科技的Vidu在生成速度上表現(xiàn)尤為出色，僅需30秒即可完成，而國內(nèi)外主流產(chǎn)品的生成時間大約為5分鐘左右。

字節(jié)跳動旗下的剪映上線即夢AI，在視頻生成的基礎(chǔ)上創(chuàng)新了故事模式，能夠從提示詞到角色、場景，實現(xiàn)從創(chuàng)意到成品的快速轉(zhuǎn)化。

此外，阿里達摩院的AI視頻產(chǎn)品[尋光]和百度的AI視頻模型UniVG雖然仍在內(nèi)測階段，但從官方發(fā)布的信息來看，二者在可控編輯、語義一致性等方面具有很大的潛力。

國內(nèi)產(chǎn)品生成高品質(zhì)內(nèi)容仍需升級

AI視頻生成面臨的挑戰(zhàn)包括準確性、一致性和豐富性。實際體驗效果與各公司發(fā)布的宣傳片之間存在較大差異。

若AI視頻生成技術(shù)想要實現(xiàn)商業(yè)應(yīng)用，仍需克服諸多挑戰(zhàn)。

目前，無論是國內(nèi)還是國際上的AI視頻生成技術(shù)，大多數(shù)支持480p/720p分辨率的視頻生成，而支持1080p高清視頻的則相對較少。

素材的質(zhì)量和算力的高低直接影響生成視頻的品質(zhì)。

然而，即便擁有高質(zhì)量的素材和強大的算力，并不意味著能夠保證生成的視頻品質(zhì)。

使用低分辨率素材訓(xùn)練的模型若試圖生成高分辨率視頻，可能會導(dǎo)致視頻出現(xiàn)崩壞或重復(fù)現(xiàn)象，例如出現(xiàn)多手多腳的情況。

這類問題通�？梢酝ㄟ^放大、修復(fù)和重繪等手段解決，但其效果和細節(jié)通常不盡如人意。

在國內(nèi)，大多數(shù)AI視頻生成技術(shù)能夠支持2-3秒的視頻，能夠達到5-10秒的則屬于較為先進的產(chǎn)品。

也有個別產(chǎn)品表現(xiàn)突出，例如即夢技術(shù)可以生成長達12秒的視頻。

但與Sora技術(shù)相比，后者曾宣稱能夠生成長達60秒的視頻，盡管目前尚未對外開放使用，其具體表現(xiàn)尚無法驗證。

除了視頻長度，生成內(nèi)容的合理性同樣重要。

理論上，AI可以持續(xù)輸出視頻，甚至長達一個小時，但用戶通常需要的不是監(jiān)控視頻或循環(huán)播放的風(fēng)景畫，而是具有精美畫面和故事性的短片。

即夢技術(shù)雖然在視頻長度上有所突破，但生成質(zhì)量并不理想，例如主角小女孩的形象在后期會出現(xiàn)變形。

Vega AI也存在類似問題；而PixVerse技術(shù)生成的畫質(zhì)較差。

相比之下，Morph技術(shù)在內(nèi)容準確性上表現(xiàn)良好，但視頻時長僅為2秒。

藝映技術(shù)的畫質(zhì)佳，但在理解文字方面存在不足，導(dǎo)致關(guān)鍵元素如兔子丟失，且生成的視頻風(fēng)格偏向漫畫，缺乏寫實感。

目前，許多宣稱使用AI進行全流程制作的影視短片，實際上采用的是圖像生成視頻或視頻到視頻的技術(shù)。

視頻的連貫性至關(guān)重要，許多AI視頻工具通過單幀圖片預(yù)測后續(xù)動作來實現(xiàn)視頻轉(zhuǎn)換，但預(yù)測的準確性目前仍依賴于運氣。

在實現(xiàn)視頻中主角一致性方面，各家技術(shù)并非完全依賴數(shù)據(jù)生成。

然而，目前這些技術(shù)仍在探索階段，即便進行了技術(shù)疊加，人物一致性問題仍未得到完全解決。

目前生成時長與效果差異不大

目前，市面上主流的AI視頻工具主要生成時長在4秒至10秒左右的視頻片段。

Vidu效果生數(shù)科技此次推出的Vidu開放文生視頻、圖生視頻兩項功能，提供了4秒和8秒兩種時長選項，最高支持1080P的分辨率。

在處理速度方面，實測生成一段4秒視頻片段僅需30秒。

愛詩科技的PixVerse V2能夠支持生成單個時長為8秒的視頻片段，并且具備一鍵生成1至5段連續(xù)視頻內(nèi)容的功能，確保片段間主體形象、畫面風(fēng)格及場景元素保持一致。

智譜AI的智譜清影能夠制作出時長為6秒的視頻，制作時間大約為30秒，清晰度可達到1440x960（3：2）。

快手可靈生成的視頻時長為5秒，但其具備將視頻時長擴展的功能，可以將視頻時長延長至10秒。

然而，在視頻生成速度上，快手可靈相對較慢，通常需要2至3分鐘的時間。

從技術(shù)積累的角度審視，盡管國內(nèi)人工智能視頻生成企業(yè)均在布局DiT架構(gòu)，但相較于Sora的水平，它們在視頻生成的時長和效果方面仍處于追趕狀態(tài)。

國內(nèi)AI視頻大模型已經(jīng)開啟了商業(yè)探索

相較于聊天機器人工具如ChatGPT，AI視頻生成被視為大模型技術(shù)商業(yè)化的黃金賽道。

其成為黃金賽道的原因主要有兩個方面：首先，AI視頻生成工具本身具有明顯的收費優(yōu)勢。

目前，多數(shù)AI視頻生成工具面向消費者端用戶采用會員制度。

以可靈為例，其會員分為黃金、鉑金、鉆石三個等級；

經(jīng)過優(yōu)惠后，三檔月卡的價格分別為33元、133元和333元，分別提供660、3000、8000[靈感值]，可生成大約66個、300個或800個標(biāo)準視頻。

智譜清影推出的定價策略如下：在首發(fā)測試期間，所有用戶均可免費體驗；

支付5元，可獲得一天（24小時）的高速通道權(quán)益；

支付199元，則可解鎖一年的高速通道權(quán)益。然而，AI視頻生成領(lǐng)域的商業(yè)化目前仍處于起步階段。

對于企業(yè)級用戶，這些工具支持通過調(diào)用API接口進行收費。

例如智譜AI，除了會員制收費方式外，還在開放平臺上開放API接口，收取一定費用。

另一方面，AI視頻生成工具模糊了創(chuàng)作者與消費者之間的界限，特別是在快手和抖音等平臺上，視頻博主既是消費者，也可以利用AI視頻工具進行創(chuàng)作，轉(zhuǎn)變?yōu)橐曨l生產(chǎn)方。

這種大C小B的消費者群體極為重要，甚至可能是最關(guān)鍵的，ToB和ToC的界限日益模糊。

然而，從商業(yè)生態(tài)的角度來看，大型企業(yè)和初創(chuàng)企業(yè)在變現(xiàn)策略上存在差異。

像抖音、快手這樣的行業(yè)領(lǐng)先視頻平臺，可以利用其龐大的用戶基礎(chǔ)，通過提供AI視頻生成工具，鼓勵用戶創(chuàng)作相關(guān)內(nèi)容，從而豐富自身的視頻生態(tài)體系。

這些大型平臺無需直接銷售工具，而是通過用戶實現(xiàn)商業(yè)化變現(xiàn)。

對于初創(chuàng)企業(yè)而言，直接銷售工具在中國市場并不現(xiàn)實，未來可能只有行業(yè)巨頭才有機會，因為它們擁有龐大的用戶群體。

對于大模型初創(chuàng)企業(yè)來說，如果僅限于銷售工具，在中國只能面向ToB，而不能面向ToC。

只有面向企業(yè)端，才是實現(xiàn)商業(yè)化變現(xiàn)的可行途徑。

企業(yè)愿意為此付費的原因在于，它們能夠通過視頻實現(xiàn)商業(yè)交付，產(chǎn)生收益，以支持相應(yīng)的成本支出。

因此，在AI視頻的商業(yè)化過程中，消費者端的成功更多地屬于行業(yè)巨頭，而創(chuàng)業(yè)者的機遇則在于企業(yè)端。

目前，C端用戶利用AI視頻大模型平臺開發(fā)的視頻應(yīng)用缺乏明確的指向性，平臺本身亦難以預(yù)測C端用戶將如何運用這些視頻。

互聯(lián)網(wǎng)巨頭很可能將扮演引領(lǐng)者的角色

核心競爭要素在于數(shù)據(jù)、場景和用戶。數(shù)據(jù)是訓(xùn)練高質(zhì)量模型的關(guān)鍵，而場景決定了產(chǎn)品的市場適應(yīng)性和商業(yè)潛力，互聯(lián)網(wǎng)巨頭在這三個維度均占優(yōu)勢。

目前，移動互聯(lián)網(wǎng)月活躍用戶增長放緩，而AIGC APP的月活躍用戶快速增長，2024年6月滲透率提升至5%，并仍有提升空間。

未來的流量分配格局將很大程度由人工智能主導(dǎo)，用戶將天然地流向更好用、更有趣、更低門檻的內(nèi)容消費平臺。

這解釋了為什么字節(jié)跳動、快手高度重視視頻生成項目。字節(jié)跳動將剪映定位為P0級項目，由原CEO張楠帶隊；

快手則將[可靈]定位于戰(zhàn)略級項目，由技術(shù)大牛萬鵬飛帶隊，獲得程一笑的支持，集全公司數(shù)據(jù)、算力和資金資源。

另一方面，專業(yè)的全流程影視創(chuàng)作平臺仍然具有較強的用戶壁壘。

結(jié)尾：

根據(jù)頭豹研究院提供的數(shù)據(jù)，2021年中國AI視頻生成行業(yè)的市場規(guī)模為800萬元，預(yù)計到2026年，市場規(guī)模將增長至92.79億元。

根據(jù)啟明創(chuàng)投的數(shù)據(jù)，2023年一級市場中AI投資金額達到了224億美元，超過了前十年投資的累計總和。

眾多行業(yè)專家預(yù)測，2024年將是AI視頻生成領(lǐng)域的一個重要轉(zhuǎn)折點，即所謂的[Midjourney時刻]。

部分資料參考：太平洋科技：《價格定得好，國產(chǎn)Sora們躺著跑》，東西文娛：《AI視頻的六月：玩家就位》，定焦：《半年過去，AI視頻卷到哪兒了？》，光錐智能：《爆[卷]的AI視頻，大廠向左，創(chuàng)企向右》，科技新知：《實測4款國產(chǎn)頭部AI視頻大模型》，中信建投證券研究：《國產(chǎn)AI視頻：可用度強性價比高，快手可靈開啟C端付費》，第一新聲：《探秘視頻生成大模型：誰將成為下一個風(fēng)口王者？》，億邦動力：《AI視頻爆發(fā)！一天10萬條，沖進抖音快手小紅書》，第一財經(jīng)：《視頻生成混戰(zhàn)：在[GPT-3]時代，[大家看不懂的時候要先上]》

原文標(biāo)題 : AI芯天下丨深度丨國內(nèi)AI視頻主要玩家落座，進入商業(yè)模式PK環(huán)節(jié)

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<strike id="yskvz"><s id="yskvz"></s></strike>