訂閱
糾錯
加入自媒體

左手AI數(shù)字人,右手人形機(jī)器人:多模態(tài)技術(shù)正模糊虛實(shí)邊界

2025-04-09 16:34
VR陀螺
關(guān)注

文/VR陀螺

不久前,阿里巴巴通過3D高斯濺射技術(shù)在蘋果Vision Pro上部署了實(shí)時高質(zhì)量渲染的3D AI數(shù)字人TaoAvatar,可根據(jù)多視圖序列生成逼真、拓?fù)湟恢碌?D全身虛擬形象,姿勢、手勢和表情均可完全控制。

該技術(shù)使數(shù)字人在3D空間中能聆聽、能說話、有表情、有動作,同一數(shù)字人可瞬間切換職業(yè)/服飾,未來可應(yīng)用于AR電商直播場景等。未來可應(yīng)用于虛擬導(dǎo)購等領(lǐng)域。

4月7日,阿里通義宣布開源發(fā)布LHM可驅(qū)動超寫實(shí)3D數(shù)字人生成模型,可單圖秒級生成超寫實(shí)3D數(shù)字人。只需輸入一張圖片、即可與這張圖片所生成的數(shù)字人化身進(jìn)行低延遲的實(shí)時對話。未來,LHM有動作重現(xiàn)、游戲角色生成和虛擬現(xiàn)實(shí)探索三大應(yīng)用方向。

數(shù)字人的發(fā)展遠(yuǎn)比想象中更快,AI化只是其變革的一個縮影。

 虛擬主播、數(shù)字員工……當(dāng)數(shù)字人都開始接入AI 

自2022年起便處于休整狀態(tài)的虛擬VTuber絆愛(Kizuna AI)于不久前以全新形象正式“復(fù)活”,在YouTube上恢復(fù)更新,并宣稱未來將更專注于音樂活動。更新后不久,其YouTube訂閱數(shù)重新突破300萬。

左圖為絆愛新形象

網(wǎng)友戲稱:“2016年懷疑絆愛是不是AI,2025年還在懷疑絆愛是不是AI,一切都回來了!”

人工智能為人設(shè)的絆愛或許未曾料到,同樣是在2022年,在自己宣布無限期休整后,真正意義上的AI聊天機(jī)器人ChatGPT會掀起一場襲卷全球的浪潮,將AI的發(fā)展推向新的高峰。

技術(shù)的持續(xù)升級不斷擴(kuò)展數(shù)字人的“工作能力”,相較于由人類(中之人)驅(qū)動的數(shù)字人(虛擬主播、虛擬偶像等),如今由AI驅(qū)動的數(shù)字人(AI助手、AI數(shù)字員工)在接入多模態(tài)大模型后受到了更多的青睞。

在虛擬主播領(lǐng)域,AI VTuber如雨后春筍般涌現(xiàn),例如Neuro-sama是完全依靠AI運(yùn)行的英語系VTuber,不僅能回復(fù)聊天,還能通過AI玩《osu!》和《Minecraft》等游戲。Neuro-sama的成功不僅展示了AI VTuber在娛樂領(lǐng)域的潛力,更揭示了AI數(shù)字人在多場景應(yīng)用中的技術(shù)通用性。

它們與傳統(tǒng)虛擬主播的區(qū)別在于,后者不需要人類過多介入,能基于大型語言模型(LLM)自主與觀眾互動,而且能夠?qū)崟r響應(yīng)用戶聊天、玩電子游戲和分享個人趣事。隨著開發(fā)者向他們提供更新的數(shù)據(jù)或語言模型,它們能夠不斷進(jìn)化。

AI驅(qū)動的VTuber

隨著多模態(tài)大模型的不斷成熟,不同職位的數(shù)字人的功能屬性正在發(fā)生變化:AI數(shù)字人正在重塑人機(jī)交互的邊界:

春節(jié)期間,杭州電視臺新聞聯(lián)播的AI主持人“小雨”進(jìn)行新聞播報(bào),實(shí)現(xiàn)了0失誤率,不少地方電視臺和地方融媒體中心都聘用了AI數(shù)字人擔(dān)任主播。

2025年兩會期間,長江日報(bào)正式上線接入DeepSeek的最新人工智能產(chǎn)品,數(shù)字人“小武”能根據(jù)政府工作報(bào)告內(nèi)容進(jìn)行知識問答。

浙江義烏老板通過AI數(shù)字人短視頻制作工具,錄制好帶口型的視頻,配合對應(yīng)的產(chǎn)品文案就能一鍵生成對應(yīng)的外語視頻。

騰訊云智能數(shù)智人接入DeepSeek大模型,用戶通過數(shù)智人平臺內(nèi)置的V3、R1等模型,無需開發(fā)就可以讓DeepSeek擁有真人外觀,數(shù)智人可應(yīng)用于交互場景和播報(bào)場景。

百度慧播星發(fā)布了“真人一鍵克隆”數(shù)字人直播功能,可以實(shí)現(xiàn)無需專業(yè)設(shè)備、無需真人值守、無需運(yùn)營團(tuán)隊(duì)、上傳視頻即可同步復(fù)刻聲音、形象、裝修,一鍵打造數(shù)字人電商直播間。

不知不覺間,DeepSeek等AI大模型都在為數(shù)字人注入新的血液,數(shù)字人正完成從“皮囊”到“靈魂”的進(jìn)化,AI將逐步覆蓋數(shù)字人生產(chǎn)到應(yīng)用的全流程。

 能力進(jìn)化,這是AI數(shù)字人該有的樣子 

數(shù)字人的發(fā)展可按技術(shù)成熟度分為五個階段:萌芽階段、初級階段、成長階段和成熟階段,不同時期均有其顯著特點(diǎn)。

萌芽階段的數(shù)字人起源于20世紀(jì)80年代的日本宅文化,以角色概念設(shè)定出現(xiàn)。直至21世紀(jì)初期的初級階段,隨著雅馬哈的語音合成軟件VOCALOID的推出,數(shù)字人正式走上文娛舞臺,代表角色為初音未來。2016年至2020年期間,動捕技術(shù)和錄制設(shè)備的發(fā)展到達(dá)新階段,出現(xiàn)了以絆愛等需要中之人驅(qū)動的虛擬主播。

進(jìn)入成長階段的數(shù)字人主要以二次元風(fēng)格形象為主,2021年后元宇宙興起,AI開始融入數(shù)字人的制作環(huán)節(jié),建模、驅(qū)動和渲染技術(shù)的升級,使得3D化偏寫實(shí)風(fēng)格的數(shù)字人憑借高仿真的外形和交互能力獲得超高關(guān)注,代表角色有AYAYI、柳夜熙等,然而這類數(shù)字人自帶IP屬性,由于生產(chǎn)成本過高,其模式難以大批量復(fù)制投入市場。

在正式進(jìn)入成熟階段之前,數(shù)字人產(chǎn)業(yè)因ChatGPT等AI的出現(xiàn)走向了新的分支,這期間各產(chǎn)業(yè)與數(shù)字人的融合更加緊密,且AI不再局限于融入數(shù)字人的制作流程,而是能直接賦予數(shù)字人情感表達(dá)、內(nèi)容輸出和規(guī);瘧(yīng)用的能力。

純AI驅(qū)動的數(shù)字人已經(jīng)走向新高地,其技術(shù)構(gòu)成主要涵蓋外在形象、決策交互和多端部署等方面。

外在形象:AI數(shù)字人外在形象塑造技術(shù)取得顯著進(jìn)展,源于計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方面均取得重要突破。傳統(tǒng)建模方式流程繁瑣且效果有限,如今數(shù)字人建模算法僅需少量視角的圖片/視頻/音頻就可生成新樣本,再對數(shù)據(jù)進(jìn)行渲染從而生成更具真實(shí)感的三維數(shù)字人形象。

EchoMimicV2數(shù)字人——輸入1張圖+1段手勢視頻+1段音頻,即可生成有自然動作的數(shù)字人

決策交互:實(shí)現(xiàn)AI數(shù)字人與用戶流暢智能交互,依賴語音識別(ASR)、語音合成(TTS)、自然語言理解(NLP)、AIGC、大型語言模型(LLM)等能力,以及知識圖譜的構(gòu)建和深度學(xué)習(xí)能力來完成分析決策,實(shí)現(xiàn)與數(shù)字人的實(shí)時交互,在智能客服、智慧屏等ToB應(yīng)用場景,AI數(shù)字人表現(xiàn)出色。

Tavus:實(shí)時音視頻對話數(shù)字人——能聽、看到、理解用戶的話,并做出有感情的回復(fù)

多端部署:多端部署對AI數(shù)字人的價值發(fā)揮至關(guān)重要。具有實(shí)用性的AI數(shù)字人需要支持多平臺運(yùn)行,這意味著它需要強(qiáng)大的傳輸能力、云計(jì)算、邊緣計(jì)算等能力來保證高質(zhì)量、和低延遲的人機(jī)交互服務(wù)。

硅基智能開源實(shí)時數(shù)字人duix.ai——可在各種終端設(shè)備上部署

上述數(shù)字人從外形和面部表情來看足夠以假亂真,用戶所希望的是一種更有“活人感”的數(shù)字人。2月6日,字節(jié)跳動推出OmniHuman-1數(shù)字人模型:可從單張照片及一段音頻生成逼真全身動態(tài)視頻,據(jù)悉OmniHuman是經(jīng)過超18700小時的人類視頻數(shù)據(jù)訓(xùn)練而成的。

字節(jié)跳動OmniHuman-1數(shù)字人模型

在AI數(shù)字人這條賽道上能看到阿里、百度、京東、騰訊等企業(yè)的加入,現(xiàn)在AI數(shù)字人的產(chǎn)品和落地場景都得到了驗(yàn)證,然而最關(guān)鍵的成本問題則會隨著國內(nèi)訓(xùn)練的模型的增多而進(jìn)一步緩解。

硅基數(shù)字人HeyGem.ai模型

3月6日,硅基智能在GitHub開源了硅基數(shù)字人HeyGem.ai模型,用戶只需要上傳1秒視頻或者一張真人照片,就能在30秒內(nèi)輸出還原本人音色和外貌的60秒數(shù)字人視頻,且支持離線克隆數(shù)字人的形象和聲音,以及4K畫質(zhì)導(dǎo)出。此開源模型一發(fā)布,開發(fā)者、企業(yè)甚至是個人用戶都能以更低成本創(chuàng)建AI數(shù)字人。

當(dāng)AI數(shù)字人在虛擬世界構(gòu)建起完整的交互生態(tài)時,技術(shù)的邊界正悄然向物理世界延伸。

 AI的另一個進(jìn)化方向:具身智能-人形機(jī)器人 

作為AI大模型中最先進(jìn)行商業(yè)化嘗試的應(yīng)用之一,AI數(shù)字人在多數(shù)人眼中像是人機(jī)交互的門戶,如今已經(jīng)能與人類進(jìn)行無障礙交流。隨著技術(shù)發(fā)展,人們不禁思考,數(shù)字人會不會從平面的虛擬形象概念發(fā)展到具有高度智能和仿真交互能力的實(shí)體數(shù)字人,甚至能在某些場景中輔助人類完成任務(wù)?

具身智能是指將人工智能融入機(jī)器人等物理實(shí)體,賦予它們感知、學(xué)習(xí)和與環(huán)境動態(tài)交互的能力。如今,具身智能已經(jīng)走到臺前,并首次被寫入政府工作報(bào)告。

人形機(jī)器人是具身智能的一類代表性終端,其核心特性則是強(qiáng)調(diào)機(jī)器人的身體要與物理世界的環(huán)境有動態(tài)交互,包括執(zhí)行抓取、移動、操作物體等物理動作,而純軟件系統(tǒng),如AI聊天機(jī)器人/AI數(shù)字人則無法實(shí)現(xiàn)這類交互。

2025年,人形機(jī)器人熱度頗高。在CES大會上,英偉達(dá)宣布合作的14家人形機(jī)器人廠商中,有近半數(shù)來自中國,包括小鵬汽車XPENG(Iron)、宇樹科技Unitree(H1)、銀河通用機(jī)器人Gallbot(G1)、傅利葉智能Fourier(GR-2)、星動紀(jì)元ROBOTERA(Star1)、智元機(jī)器人Agibot(A2)。

具身智能的發(fā)展速度超乎想象,如今人形機(jī)器人的上新時間間隔已經(jīng)縮短到以天為單位,進(jìn)入量產(chǎn)前的熱身階段。比起外形,人形機(jī)器人的現(xiàn)階段的首要任務(wù)就是優(yōu)化“大腦”能力并提升運(yùn)動能力。

3月11日,稚暉君時隔兩年發(fā)布新視頻,展示全新的智元機(jī)器人靈犀X2,能走、能跳舞、能騎自行車,在此之前稚暉君還發(fā)布了首個通用具身基座模型——智元啟元大模型(Genie Operator-1),該大模型能夠通過學(xué)習(xí)人類視頻并訓(xùn)練,完成小樣本快速泛化,最終部署到智元機(jī)器人的本體上。

3月19日,英偉達(dá)CEO黃仁勛在GTC 2025大會上發(fā)表了主題演講,并宣布推出Isaac GR00T N1通用機(jī)器人模型,使通用人形機(jī)器人能夠理解人類世界、遵循語言指令并執(zhí)行各種任務(wù),其目的就是加速人形機(jī)器人的開發(fā)和能力提升。

兩個Isaac GR00T N1人形機(jī)器人用雙臂搬運(yùn)物體

黃仁勛將機(jī)器人描述為下一個10萬億美元的產(chǎn)業(yè),并表示到2030年年底,全球?qū)⒚媾R至少5000萬勞動力短缺的問題,未來將雇傭更多機(jī)器人來工作。

宇樹G1機(jī)器人的“側(cè)空翻”和波士頓動力機(jī)器人Atlas“跳街舞”挑戰(zhàn)高難度動作,讓人形機(jī)器人再次火出圈,這些動作對機(jī)器人精確控制身體各部分的運(yùn)動軌跡和姿態(tài)的能力要求頗高。

宇樹G1機(jī)器人

波士頓動力機(jī)器人Atlas

當(dāng)下計(jì)算機(jī)視覺、多種傳感器與深度學(xué)習(xí)等技術(shù)的融合正在推進(jìn)人形機(jī)器人走向應(yīng)用階段。推薦閱讀:《中國正在用一個萬億機(jī)器人市場,消解二十億人的養(yǎng)老焦慮》

站在2025年的技術(shù)節(jié)點(diǎn)回望,虛擬世界的數(shù)字人最初作為虛擬主播的娛樂載體,如今具身智能以鋼鐵之軀在現(xiàn)實(shí)世界展現(xiàn)新貌,二者雖在形態(tài)上截然不同,卻在部分技術(shù)上有共通之處。

有開發(fā)者使用蘋果Vision Pro訓(xùn)練機(jī)器人

在長期的發(fā)展進(jìn)程中,數(shù)字人發(fā)展到現(xiàn)今具備復(fù)雜技術(shù)構(gòu)成和多樣化應(yīng)用的成熟形態(tài)的過程中,積累了海量且高精度的動作捕捉數(shù)據(jù),并通過持續(xù)訓(xùn)練不斷優(yōu)化。這些寶貴的數(shù)據(jù)資源,能為人形機(jī)器人的訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐,助力其更精準(zhǔn)地模擬人類動作。與此同時,AI大模型憑借強(qiáng)大的算法與智能運(yùn)算能力,賦予人形機(jī)器人核心的交互能力,讓它們得以與環(huán)境、人類實(shí)現(xiàn)更為自然、流暢的互動。 

我們正站在虛實(shí)交融的邊界,或?qū)⒁娮C人類文明史上最深刻的生產(chǎn)關(guān)系變革——不是機(jī)器人取代人類,而是人機(jī)協(xié)同開創(chuàng)更具溫度的未來。

       原文標(biāo)題 : 左手AI數(shù)字人,右手人形機(jī)器人:多模態(tài)技術(shù)正模糊虛實(shí)邊界

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號