訂閱
糾錯(cuò)
加入自媒體

具身智能無共識(shí),就是最好的共識(shí)

圖片

在技術(shù)早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè),具身智能不是從一條路徑長(zhǎng)出來,而是從無數(shù)次試錯(cuò)、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實(shí)的生命力所在。

作者:彭堃方

編輯:呂鑫燚

出品:具身研習(xí)社

意料之內(nèi)的是具身智能在2025年末依然保持高昂姿態(tài)前行。

更在意料之內(nèi)的是,具身智能依然沒有共識(shí)。

2025智源具身OpenDay圓桌論壇上,國內(nèi)最頂尖的具身從業(yè)者來了一場(chǎng)“各執(zhí)一詞的真心話”,無論是模型架構(gòu)的選擇,還是數(shù)據(jù)的使用都未能在圓桌對(duì)話上找到統(tǒng)一的發(fā)展方向。一時(shí)間不少人對(duì)于具身智能仍無共識(shí)這事兒,抱有遺憾。

但具身研習(xí)社認(rèn)為,“無共識(shí)”的另一層意思是具身智能仍值得期待,技術(shù)還會(huì)在不經(jīng)意間“偷襲”。畢竟,有明確風(fēng)向了反倒是略顯無聊。當(dāng)我們不再訴諸“確定性”,其實(shí)能夠看出一些趨勢(shì);蛟S“無共識(shí)”本身就是一種共識(shí)。

圖片來源:智源研究院

從產(chǎn)業(yè)視角來看,共識(shí)的缺失有三重利好意義:

其一,無共識(shí)本質(zhì)上打破了單一技術(shù)路線的壟斷性話語權(quán),避免行業(yè)陷入“路徑依賴”的創(chuàng)新陷阱。在具身智能領(lǐng)域,從“分層架構(gòu) vs 端到端”的技術(shù)路線分歧,到“通用人形機(jī)器人vs場(chǎng)景化具身智能”的落地選擇,無共識(shí)狀態(tài)讓不同技術(shù)理念、學(xué)科背景的團(tuán)隊(duì)獲得平等試錯(cuò)空間;

其二,成熟行業(yè)的共識(shí)往往伴隨著高準(zhǔn)入壁壘,而具身智能的“無共識(shí)”狀態(tài),為中小企業(yè)、初創(chuàng)團(tuán)隊(duì)乃至跨界玩家提供了彎道超車的機(jī)會(huì)。無需遵循既有的技術(shù)標(biāo)準(zhǔn)或商業(yè)規(guī)則,新入局者可憑借差異化優(yōu)勢(shì)切入賽道。

其三,具身智能作為交叉學(xué)科賽道,其技術(shù)基礎(chǔ)仍在快速迭代,過早形成共識(shí)反而可能固化技術(shù)路徑,限制行業(yè)向更高維度突破。無共識(shí)狀態(tài)的核心價(jià)值,在于為技術(shù)迭代預(yù)留了“彈性空間”。

在智源具身OpenDay圓桌論壇上,講述了太多“無共識(shí)”,也折射出更多可能性。具身研習(xí)社基于在場(chǎng)嘉賓的回答,洞察出具身智能五大信號(hào),未來發(fā)展的方向或許就藏在信號(hào)中。

 

圖片

模型還不夠好

有人要另起爐灶

信號(hào)1:世界模型暫時(shí)扛不起大梁

在具身智能的模型討論中,“當(dāng)紅炸子雞”世界模型是繞不開的話題。

它的核心價(jià)值在于“預(yù)測(cè)”。讓機(jī)器人像人類一樣,根據(jù)當(dāng)前時(shí)空狀態(tài)預(yù)判下一步變化,進(jìn)而規(guī)劃動(dòng)作,這一點(diǎn)得到了圓桌嘉賓的普遍認(rèn)可。北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴以機(jī)器人運(yùn)控為例,指出無論是人形機(jī)器人的足式行走、跳舞,還是靈巧手的精細(xì)操作,其底層控制邏輯都需要對(duì)物理交互的預(yù)測(cè)能力,而世界模型恰好能提供這種支撐,但要讓世界模型真正服務(wù)于機(jī)器人,它的訓(xùn)練數(shù)據(jù)中必須包含更多機(jī)器人本身的數(shù)據(jù)。

但世界模型的短板同樣突出,難以單獨(dú)成為具身智能的“萬能方案”。王鶴強(qiáng)調(diào),當(dāng)前很多世界模型依賴人類行為視頻訓(xùn)練,可機(jī)器人的身體結(jié)構(gòu)(如輪式底盤、多自由度機(jī)械臂)與人類差異巨大,這些數(shù)據(jù)對(duì)機(jī)器人實(shí)際操作的幫助有限。加速進(jìn)化創(chuàng)始人兼CEO程昊也提到,在做飯、復(fù)雜裝配等真實(shí)場(chǎng)景中,世界模型的預(yù)測(cè)精度仍不足,只能先通過分層模型解決簡(jiǎn)單任務(wù),再逐步迭代升級(jí)。

信號(hào)2:模型要“另起爐灶”

既然現(xiàn)有模型難以滿足需求,“打造具身專屬模型”成為不少企業(yè)的共識(shí)。

清華大學(xué)交叉信息學(xué)院助理教授、星海圖CTO 趙行表示,具身智能需要平行于大語言模型的“Large Action Model”,這類模型要以“動(dòng)作”為核心,而非語言。他解釋道,人類智能的進(jìn)化是“先有動(dòng)作、再有視覺、最后有語言”,機(jī)器人要適應(yīng)物理世界,也應(yīng)該遵循類似邏輯——比如開車時(shí),人類靠視覺觀察路況、靠動(dòng)作操控方向盤,語言并未參與核心操作,具身模型也應(yīng)優(yōu)先打通“視覺-動(dòng)作”的閉環(huán)。

自變量創(chuàng)始人兼CEO王潛的觀點(diǎn)更為具體,他認(rèn)為具身智能需要一套“物理世界基礎(chǔ)模型”,既能控制機(jī)器人動(dòng)作,又能作為世界模型預(yù)測(cè)物理規(guī)律。虛擬世界的多模態(tài)模型靠文字、圖片訓(xùn)練,但物理世界的摩擦、碰撞、力反饋等精細(xì)過程,卻是無法用語言準(zhǔn)確描述的。當(dāng)一個(gè)機(jī)器人抓取雞蛋時(shí),它需要感知蛋殼的脆弱度、調(diào)整握力,這種對(duì)物理屬性的理解,必須依賴專門針對(duì)物理世界訓(xùn)練的模型。

信號(hào)3:從底層架構(gòu)開始革新

過去幾年,Transformer架構(gòu)憑借跨模態(tài)處理能力,撐起了ChatGPT等大語言模型的爆發(fā),但在具身智能領(lǐng)域,它的適用性正受到質(zhì)疑。招商局集團(tuán)AI首席科學(xué)家張家興是這一觀點(diǎn)的代表,他直言“具身智能不能走LLM到VLM的老路”。

在他看來,Transformer架構(gòu)是以語言為核心,將視覺、動(dòng)作等模態(tài)向語言映射,這與物理世界的操作邏輯相悖——人類做動(dòng)作時(shí),視覺感知直接指導(dǎo)肌肉運(yùn)動(dòng),無需經(jīng)過語言“翻譯”。他透露,硅谷頭部團(tuán)隊(duì)已在探索“Vision First”或“Vision Action First”的新架構(gòu),讓視覺和動(dòng)作直接交互,減少語言中介的損耗。

王鶴也補(bǔ)充道,Transformer作為一個(gè)跨模態(tài)的Attention機(jī)制,是很通用的。比如你發(fā)現(xiàn)它吞吐文模態(tài)、視頻模態(tài)、聲音模態(tài)都是可以的。但“今天具身的問題是,我們?nèi)擞醒、耳、口、鼻、舌,這么多‘覺’,雖然從Attention的角度,把這些‘覺’Token化以后都能放到Transformer里,但是它在輸出上好像不是那么的理想,根本挑戰(zhàn)是數(shù)據(jù)問題以及與之對(duì)應(yīng)的學(xué)習(xí)范式”。

王鶴提出,短期來看,仿真模擬與合成數(shù)據(jù)是突破探索速度的核心手段;長(zhǎng)期來看,現(xiàn)實(shí)世界中人形機(jī)器人的規(guī)模必須持續(xù)快速擴(kuò)張,只有足夠大的“機(jī)器人人口”與能力提升相互推動(dòng),才能催生真正強(qiáng)大的具身大模型。

這種底層架構(gòu)的不匹配,讓行業(yè)意識(shí)到:要實(shí)現(xiàn)具身智能的突破,或許需要從架構(gòu)根源上革新,而非在現(xiàn)有框架內(nèi)修修補(bǔ)補(bǔ)。

 

圖片

數(shù)據(jù)依舊是卡點(diǎn)

且胃口越來越大

信號(hào)4:沒有完美數(shù)據(jù),只有適配選擇

“數(shù)據(jù)是具身智能的燃料”,這是圓桌論壇的共識(shí),但“用什么數(shù)據(jù)”卻沒有統(tǒng)一答案。由于不同數(shù)據(jù)類型各有優(yōu)劣,企業(yè)普遍采取“多源融合、按需選擇”的策略,根據(jù)任務(wù)場(chǎng)景匹配最合適的數(shù)據(jù)來源。真機(jī)數(shù)據(jù)是最“保真”的選擇,能直接反映真實(shí)物理世界的交互規(guī)律,因此成為精細(xì)操作場(chǎng)景的首選。趙行所在的星海圖團(tuán)隊(duì),就堅(jiān)持深入真實(shí)場(chǎng)景采集數(shù)據(jù),他們把真實(shí)性、質(zhì)量看作真實(shí)機(jī)器人的數(shù)采起點(diǎn)。智元機(jī)器人合伙人、首席科學(xué)家羅劍嵐也強(qiáng)調(diào),智元機(jī)器人也堅(jiān)持真實(shí)數(shù)據(jù),并且在數(shù)據(jù)采集中堅(jiān)持真實(shí)場(chǎng)景而非單靠數(shù)采工廠,摸索一條通過機(jī)器人自主地去產(chǎn)生數(shù)據(jù),構(gòu)建起數(shù)據(jù)飛輪的道路。而仿真數(shù)據(jù)則憑借“低成本、可規(guī);”的優(yōu)勢(shì),成為底層控制訓(xùn)練的主力。王鶴認(rèn)為,在強(qiáng)化學(xué)習(xí)中,很多極端場(chǎng)景(如機(jī)器人摔倒、機(jī)械臂過載)難以在真機(jī)上反復(fù)測(cè)試,而仿真器可以快速生成大量類似數(shù)據(jù),幫助模型學(xué)習(xí)應(yīng)對(duì)策略。在他看來,模擬器并不是對(duì)真實(shí)世界的否定,而是以模擬器為始,它能夠給具身企業(yè)一個(gè)很好的Base Controller,讓我們能在真實(shí)世界里能把數(shù)據(jù)飛輪轉(zhuǎn)起來。

程昊的加速進(jìn)化團(tuán)隊(duì)也采取類似策略,先用仿真數(shù)據(jù)讓機(jī)器人掌握基本運(yùn)控能力,再用真機(jī)數(shù)據(jù)微調(diào)適配真實(shí)場(chǎng)景。“我們用仿真數(shù)據(jù)訓(xùn)練的一個(gè)目標(biāo),是讓機(jī)器人接下來能獲得更多真實(shí)數(shù)據(jù),有了真實(shí)數(shù)據(jù),整體能力才能再提升。”在程昊看來這很可能是一個(gè)螺旋上升的過程。

視頻數(shù)據(jù)則成為基座模型訓(xùn)練的重要補(bǔ)充。智源研究院院長(zhǎng)王仲遠(yuǎn)認(rèn)為“視頻數(shù)據(jù)訓(xùn)練基座模型”這一套邏輯其實(shí)跟現(xiàn)在小朋友刷手機(jī)來認(rèn)識(shí)世界是一個(gè)原理——先通過視頻學(xué)習(xí)到這個(gè)世界,再通過真實(shí)的交互體驗(yàn)來提升他們的技能。這些視頻數(shù)據(jù)包含時(shí)空、因果、意圖等多維度信息,且能大規(guī)模獲取,是當(dāng)前缺乏海量真機(jī)數(shù)據(jù)時(shí)的“折中最優(yōu)解”。但在具身研習(xí)社追問“從視頻中學(xué)習(xí)如何解決觸覺跟力控精細(xì)化數(shù)據(jù)?”時(shí)王仲遠(yuǎn)也承認(rèn),視頻中確實(shí)缺乏力反饋、觸覺等信息,但這并不影響其價(jià)值,F(xiàn)在智源研究院具身智能實(shí)驗(yàn)室里也備有帶力反饋數(shù)據(jù)的采集設(shè)備。視頻數(shù)據(jù)更多用于“打基礎(chǔ)”,還需結(jié)合其他數(shù)據(jù)做針對(duì)性優(yōu)化、微調(diào)。

信號(hào)5:“數(shù)量”“質(zhì)量”“種類”,具身企業(yè)全方位要數(shù)據(jù)

隨著具身智能向復(fù)雜場(chǎng)景滲透,行業(yè)對(duì)數(shù)據(jù)的需求正不斷升級(jí),不僅“量”要大,“質(zhì)”要高,“種類”也要更豐富,形成了越來越大的“數(shù)據(jù)胃口”。

首先是“量”的渴求,“互聯(lián)網(wǎng)級(jí)別”數(shù)據(jù)成為行業(yè)共同的期待。如趙行認(rèn)為,數(shù)據(jù)的規(guī);軌蚍聪虻尿(qū)動(dòng)模型的進(jìn)化和智能的實(shí)現(xiàn)。王仲遠(yuǎn)也表示“更好的具身大模型,可能要等大量機(jī)器人在真實(shí)場(chǎng)景中解決具體問題、累積出‘具身智能互聯(lián)網(wǎng)’級(jí)別的數(shù)據(jù)之后,才會(huì)出現(xiàn)”。換句話說,沒有足夠的數(shù)據(jù),模型就像沒吃飽的孩子,跑不快也長(zhǎng)不壯。

當(dāng)業(yè)內(nèi)在為Generalist構(gòu)建的27萬小時(shí)真機(jī)數(shù)據(jù)集,疑似觸碰到所謂規(guī);▌t而歡呼時(shí),王仲遠(yuǎn)對(duì)具身研習(xí)社坦言,“幾十萬小時(shí)的數(shù)據(jù)依然不能叫海量數(shù)據(jù),還遠(yuǎn)沒到ChatGPT時(shí)刻”。

 

圖片

圖片來源:智源研究院

在“量”之外,是“質(zhì)”的追求,“高質(zhì)量數(shù)據(jù)比海量低質(zhì)數(shù)據(jù)更有價(jià)值”的觀點(diǎn)逐漸成為主流。王潛認(rèn)為,數(shù)據(jù)雖然很重要,但不是簡(jiǎn)單的“越多越好”。

事實(shí)上,語言模型已經(jīng)驗(yàn)證過,單純堆數(shù)據(jù)規(guī)模未必帶來最好效果,高質(zhì)量、高效率的數(shù)據(jù)才是決定性因素。他認(rèn)為在具身場(chǎng)景里,數(shù)據(jù)質(zhì)量比數(shù)據(jù)總量更能拉開一個(gè)量級(jí)上的差距。在這里,站在金字塔頂尖的真機(jī)數(shù)據(jù)或許可以少,但很可能是打地基的那一層或者說是針對(duì)仿真、視頻數(shù)據(jù)之外,扶大廈之將傾的存在。

最后是“種類”的豐富,多模態(tài)數(shù)據(jù)的需求日益迫切。隨著機(jī)器人應(yīng)用場(chǎng)景擴(kuò)展,單一類型的數(shù)據(jù)已無法滿足需求。比如在家庭服務(wù)場(chǎng)景中,機(jī)器人需要同時(shí)處理視覺(識(shí)別物體)、聽覺(理解指令)、觸覺(感知物體軟硬)、力反饋(控制動(dòng)作力度)等多維度信息。當(dāng)前業(yè)內(nèi)所說的多模態(tài)更能力,多是承襲基座大模型的視覺、語言能力,在真正物理交互中的觸覺、力反饋等模態(tài)少之又少。

這種對(duì)數(shù)據(jù)種類的豐富需求,也讓行業(yè)意識(shí)到:未來的數(shù)據(jù)采集,不僅要記錄“機(jī)器人做了什么”,還要記錄“環(huán)境發(fā)生了什么”“交互有何反饋”“人類需要什么”,才能讓模型更懂物理世界、更懂人類需求。在技術(shù)的早期,總有人試圖尋找唯一正確的路線,希望通過一次性押注來穿越迷霧。但具身智能的復(fù)雜性正在提醒行業(yè):真正的智能不是從一條路徑長(zhǎng)出來,而是從無數(shù)次試錯(cuò)、沖突與調(diào)和中被“雕刻”出來。模型不完美,數(shù)據(jù)不完整,架構(gòu)不統(tǒng)一,這聽上去像缺陷,卻恰恰是具身智能最真實(shí)的生命力所在。

       原文標(biāo)題 : 具身智能無共識(shí),就是最好的共識(shí)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)