少妇毛片一二区一二免费视频,911精品国产亚洲日本美国韩国

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

左手AI數(shù)字人，右手人形機(jī)器人：多模態(tài)技術(shù)正模糊虛實(shí)邊界

2025-04-09 16:34

VR陀螺

關(guān)注

文/VR陀螺

不久前，阿里巴巴通過3D高斯濺射技術(shù)在蘋果Vision Pro上部署了實(shí)時高質(zhì)量渲染的3D AI數(shù)字人TaoAvatar，可根據(jù)多視圖序列生成逼真、拓?fù)湟恢碌?D全身虛擬形象，姿勢、手勢和表情均可完全控制。

該技術(shù)使數(shù)字人在3D空間中能聆聽、能說話、有表情、有動作，同一數(shù)字人可瞬間切換職業(yè)/服飾，未來可應(yīng)用于AR電商直播場景等。未來可應(yīng)用于虛擬導(dǎo)購等領(lǐng)域。

4月7日，阿里通義宣布開源發(fā)布LHM可驅(qū)動超寫實(shí)3D數(shù)字人生成模型，可單圖秒級生成超寫實(shí)3D數(shù)字人。只需輸入一張圖片、即可與這張圖片所生成的數(shù)字人化身進(jìn)行低延遲的實(shí)時對話。未來，LHM有動作重現(xiàn)、游戲角色生成和虛擬現(xiàn)實(shí)探索三大應(yīng)用方向。

數(shù)字人的發(fā)展遠(yuǎn)比想象中更快，AI化只是其變革的一個縮影。

虛擬主播、數(shù)字員工……當(dāng)數(shù)字人都開始接入AI

自2022年起便處于休整狀態(tài)的虛擬VTuber絆愛（Kizuna AI）于不久前以全新形象正式“復(fù)活”，在YouTube上恢復(fù)更新，并宣稱未來將更專注于音樂活動。更新后不久，其YouTube訂閱數(shù)重新突破300萬。

左圖為絆愛新形象

網(wǎng)友戲稱：“2016年懷疑絆愛是不是AI，2025年還在懷疑絆愛是不是AI，一切都回來了！”

以人工智能為人設(shè)的絆愛或許未曾料到，同樣是在2022年，在自己宣布無限期休整后，真正意義上的AI聊天機(jī)器人ChatGPT會掀起一場襲卷全球的浪潮，將AI的發(fā)展推向新的高峰。

技術(shù)的持續(xù)升級不斷擴(kuò)展數(shù)字人的“工作能力”，相較于由人類（中之人）驅(qū)動的數(shù)字人（虛擬主播、虛擬偶像等），如今由AI驅(qū)動的數(shù)字人（AI助手、AI數(shù)字員工）在接入多模態(tài)大模型后受到了更多的青睞。

在虛擬主播領(lǐng)域，AI VTuber如雨后春筍般涌現(xiàn)，例如Neuro-sama是完全依靠AI運(yùn)行的英語系VTuber，不僅能回復(fù)聊天，還能通過AI玩《osu!》和《Minecraft》等游戲。Neuro-sama的成功不僅展示了AI VTuber在娛樂領(lǐng)域的潛力，更揭示了AI數(shù)字人在多場景應(yīng)用中的技術(shù)通用性。

它們與傳統(tǒng)虛擬主播的區(qū)別在于，后者不需要人類過多介入，能基于大型語言模型（LLM）自主與觀眾互動，而且能夠?qū)崟r響應(yīng)用戶聊天、玩電子游戲和分享個人趣事。隨著開發(fā)者向他們提供更新的數(shù)據(jù)或語言模型，它們能夠不斷進(jìn)化。

AI驅(qū)動的VTuber

隨著多模態(tài)大模型的不斷成熟，不同職位的數(shù)字人的功能屬性正在發(fā)生變化：AI數(shù)字人正在重塑人機(jī)交互的邊界：

春節(jié)期間，杭州電視臺新聞聯(lián)播的AI主持人“小雨”進(jìn)行新聞播報(bào)，實(shí)現(xiàn)了0失誤率，不少地方電視臺和地方融媒體中心都聘用了AI數(shù)字人擔(dān)任主播。

2025年兩會期間，長江日報(bào)正式上線接入DeepSeek的最新人工智能產(chǎn)品，數(shù)字人“小武”能根據(jù)政府工作報(bào)告內(nèi)容進(jìn)行知識問答。

浙江義烏老板通過AI數(shù)字人短視頻制作工具，錄制好帶口型的視頻，配合對應(yīng)的產(chǎn)品文案就能一鍵生成對應(yīng)的外語視頻。

騰訊云智能數(shù)智人接入DeepSeek大模型，用戶通過數(shù)智人平臺內(nèi)置的V3、R1等模型，無需開發(fā)就可以讓DeepSeek擁有真人外觀，數(shù)智人可應(yīng)用于交互場景和播報(bào)場景。

百度慧播星發(fā)布了“真人一鍵克隆”數(shù)字人直播功能，可以實(shí)現(xiàn)無需專業(yè)設(shè)備、無需真人值守、無需運(yùn)營團(tuán)隊(duì)、上傳視頻即可同步復(fù)刻聲音、形象、裝修，一鍵打造數(shù)字人電商直播間。

不知不覺間，DeepSeek等AI大模型都在為數(shù)字人注入新的血液，數(shù)字人正完成從“皮囊”到“靈魂”的進(jìn)化，AI將逐步覆蓋數(shù)字人生產(chǎn)到應(yīng)用的全流程。

能力進(jìn)化，這是AI數(shù)字人該有的樣子

數(shù)字人的發(fā)展可按技術(shù)成熟度分為五個階段：萌芽階段、初級階段、成長階段和成熟階段，不同時期均有其顯著特點(diǎn)。

萌芽階段的數(shù)字人起源于20世紀(jì)80年代的日本宅文化，以角色概念設(shè)定出現(xiàn)。直至21世紀(jì)初期的初級階段，隨著雅馬哈的語音合成軟件VOCALOID的推出，數(shù)字人正式走上文娛舞臺，代表角色為初音未來。2016年至2020年期間，動捕技術(shù)和錄制設(shè)備的發(fā)展到達(dá)新階段，出現(xiàn)了以絆愛等需要中之人驅(qū)動的虛擬主播。

進(jìn)入成長階段的數(shù)字人主要以二次元風(fēng)格形象為主，2021年后元宇宙興起，AI開始融入數(shù)字人的制作環(huán)節(jié)，建模、驅(qū)動和渲染技術(shù)的升級，使得3D化偏寫實(shí)風(fēng)格的數(shù)字人憑借高仿真的外形和交互能力獲得超高關(guān)注，代表角色有AYAYI、柳夜熙等，然而這類數(shù)字人自帶IP屬性，由于生產(chǎn)成本過高，其模式難以大批量復(fù)制投入市場。

在正式進(jìn)入成熟階段之前，數(shù)字人產(chǎn)業(yè)因ChatGPT等AI的出現(xiàn)走向了新的分支，這期間各產(chǎn)業(yè)與數(shù)字人的融合更加緊密，且AI不再局限于融入數(shù)字人的制作流程，而是能直接賦予數(shù)字人情感表達(dá)、內(nèi)容輸出和規(guī)�；瘧�(yīng)用的能力。

純AI驅(qū)動的數(shù)字人已經(jīng)走向新高地，其技術(shù)構(gòu)成主要涵蓋外在形象、決策交互和多端部署等方面。

外在形象：AI數(shù)字人外在形象塑造技術(shù)取得顯著進(jìn)展，源于計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等方面均取得重要突破。傳統(tǒng)建模方式流程繁瑣且效果有限，如今數(shù)字人建模算法僅需少量視角的圖片/視頻/音頻就可生成新樣本，再對數(shù)據(jù)進(jìn)行渲染從而生成更具真實(shí)感的三維數(shù)字人形象。

EchoMimicV2數(shù)字人——輸入1張圖+1段手勢視頻+1段音頻，即可生成有自然動作的數(shù)字人

決策交互：實(shí)現(xiàn)AI數(shù)字人與用戶流暢智能交互，依賴語音識別（ASR）、語音合成（TTS）、自然語言理解（NLP）、AIGC、大型語言模型（LLM）等能力，以及知識圖譜的構(gòu)建和深度學(xué)習(xí)能力來完成分析決策，實(shí)現(xiàn)與數(shù)字人的實(shí)時交互，在智能客服、智慧屏等ToB應(yīng)用場景，AI數(shù)字人表現(xiàn)出色。

Tavus：實(shí)時音視頻對話數(shù)字人——能聽、看到、理解用戶的話，并做出有感情的回復(fù)

多端部署：多端部署對AI數(shù)字人的價值發(fā)揮至關(guān)重要。具有實(shí)用性的AI數(shù)字人需要支持多平臺運(yùn)行，這意味著它需要強(qiáng)大的傳輸能力、云計(jì)算、邊緣計(jì)算等能力來保證高質(zhì)量、和低延遲的人機(jī)交互服務(wù)。

硅基智能開源實(shí)時數(shù)字人duix.ai——可在各種終端設(shè)備上部署

上述數(shù)字人從外形和面部表情來看足夠以假亂真，用戶所希望的是一種更有“活人感”的數(shù)字人。2月6日，字節(jié)跳動推出OmniHuman-1數(shù)字人模型：可從單張照片及一段音頻生成逼真全身動態(tài)視頻，據(jù)悉OmniHuman是經(jīng)過超18700小時的人類視頻數(shù)據(jù)訓(xùn)練而成的。

字節(jié)跳動OmniHuman-1數(shù)字人模型

在AI數(shù)字人這條賽道上能看到阿里、百度、京東、騰訊等企業(yè)的加入，現(xiàn)在AI數(shù)字人的產(chǎn)品和落地場景都得到了驗(yàn)證，然而最關(guān)鍵的成本問題則會隨著國內(nèi)訓(xùn)練的模型的增多而進(jìn)一步緩解。

硅基數(shù)字人HeyGem.ai模型

3月6日，硅基智能在GitHub開源了硅基數(shù)字人HeyGem.ai模型，用戶只需要上傳1秒視頻或者一張真人照片，就能在30秒內(nèi)輸出還原本人音色和外貌的60秒數(shù)字人視頻，且支持離線克隆數(shù)字人的形象和聲音，以及4K畫質(zhì)導(dǎo)出。此開源模型一發(fā)布，開發(fā)者、企業(yè)甚至是個人用戶都能以更低成本創(chuàng)建AI數(shù)字人。

當(dāng)AI數(shù)字人在虛擬世界構(gòu)建起完整的交互生態(tài)時，技術(shù)的邊界正悄然向物理世界延伸。

AI的另一個進(jìn)化方向：具身智能-人形機(jī)器人

作為AI大模型中最先進(jìn)行商業(yè)化嘗試的應(yīng)用之一，AI數(shù)字人在多數(shù)人眼中像是人機(jī)交互的門戶，如今已經(jīng)能與人類進(jìn)行無障礙交流。隨著技術(shù)發(fā)展，人們不禁思考，數(shù)字人會不會從平面的虛擬形象概念發(fā)展到具有高度智能和仿真交互能力的實(shí)體數(shù)字人，甚至能在某些場景中輔助人類完成任務(wù)？

具身智能是指將人工智能融入機(jī)器人等物理實(shí)體，賦予它們感知、學(xué)習(xí)和與環(huán)境動態(tài)交互的能力。如今，具身智能已經(jīng)走到臺前，并首次被寫入政府工作報(bào)告。

人形機(jī)器人是具身智能的一類代表性終端，其核心特性則是強(qiáng)調(diào)機(jī)器人的身體要與物理世界的環(huán)境有動態(tài)交互，包括執(zhí)行抓取、移動、操作物體等物理動作，而純軟件系統(tǒng)，如AI聊天機(jī)器人/AI數(shù)字人則無法實(shí)現(xiàn)這類交互。

2025年，人形機(jī)器人熱度頗高。在CES大會上，英偉達(dá)宣布合作的14家人形機(jī)器人廠商中，有近半數(shù)來自中國，包括小鵬汽車XPENG（Iron）、宇樹科技Unitree（H1）、銀河通用機(jī)器人Gallbot（G1）、傅利葉智能Fourier（GR-2）、星動紀(jì)元ROBOTERA（Star1）、智元機(jī)器人Agibot（A2）。

具身智能的發(fā)展速度超乎想象，如今人形機(jī)器人的上新時間間隔已經(jīng)縮短到以天為單位，進(jìn)入量產(chǎn)前的熱身階段。比起外形，人形機(jī)器人的現(xiàn)階段的首要任務(wù)就是優(yōu)化“大腦”能力并提升運(yùn)動能力。

3月11日，稚暉君時隔兩年發(fā)布新視頻，展示全新的智元機(jī)器人靈犀X2，能走、能跳舞、能騎自行車，在此之前稚暉君還發(fā)布了首個通用具身基座模型——智元啟元大模型（Genie Operator-1），該大模型能夠通過學(xué)習(xí)人類視頻并訓(xùn)練，完成小樣本快速泛化，最終部署到智元機(jī)器人的本體上。

3月19日，英偉達(dá)CEO黃仁勛在GTC 2025大會上發(fā)表了主題演講，并宣布推出Isaac GR00T N1通用機(jī)器人模型，使通用人形機(jī)器人能夠理解人類世界、遵循語言指令并執(zhí)行各種任務(wù)，其目的就是加速人形機(jī)器人的開發(fā)和能力提升。

兩個Isaac GR00T N1人形機(jī)器人用雙臂搬運(yùn)物體

黃仁勛將機(jī)器人描述為下一個10萬億美元的產(chǎn)業(yè)，并表示到2030年年底，全球?qū)⒚媾R至少5000萬勞動力短缺的問題，未來將雇傭更多機(jī)器人來工作。

宇樹G1機(jī)器人的“側(cè)空翻”和波士頓動力機(jī)器人Atlas“跳街舞”挑戰(zhàn)高難度動作，讓人形機(jī)器人再次火出圈，這些動作對機(jī)器人精確控制身體各部分的運(yùn)動軌跡和姿態(tài)的能力要求頗高。

宇樹G1機(jī)器人

波士頓動力機(jī)器人Atlas

當(dāng)下計(jì)算機(jī)視覺、多種傳感器與深度學(xué)習(xí)等技術(shù)的融合正在推進(jìn)人形機(jī)器人走向應(yīng)用階段。推薦閱讀：《中國正在用一個萬億機(jī)器人市場，消解二十億人的養(yǎng)老焦慮》

站在2025年的技術(shù)節(jié)點(diǎn)回望，虛擬世界的數(shù)字人最初作為虛擬主播的娛樂載體，如今具身智能以鋼鐵之軀在現(xiàn)實(shí)世界展現(xiàn)新貌，二者雖在形態(tài)上截然不同，卻在部分技術(shù)上有共通之處。

有開發(fā)者使用蘋果Vision Pro訓(xùn)練機(jī)器人

在長期的發(fā)展進(jìn)程中，數(shù)字人發(fā)展到現(xiàn)今具備復(fù)雜技術(shù)構(gòu)成和多樣化應(yīng)用的成熟形態(tài)的過程中，積累了海量且高精度的動作捕捉數(shù)據(jù)，并通過持續(xù)訓(xùn)練不斷優(yōu)化。這些寶貴的數(shù)據(jù)資源，能為人形機(jī)器人的訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐，助力其更精準(zhǔn)地模擬人類動作。與此同時，AI大模型憑借強(qiáng)大的算法與智能運(yùn)算能力，賦予人形機(jī)器人核心的交互能力，讓它們得以與環(huán)境、人類實(shí)現(xiàn)更為自然、流暢的互動。

我們正站在虛實(shí)交融的邊界，或?qū)⒁娮C人類文明史上最深刻的生產(chǎn)關(guān)系變革——不是機(jī)器人取代人類，而是人機(jī)協(xié)同開創(chuàng)更具溫度的未來。

原文標(biāo)題 : 左手AI數(shù)字人，右手人形機(jī)器人：多模態(tài)技術(shù)正模糊虛實(shí)邊界