訂閱
糾錯(cuò)
加入自媒體

Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問(wèn)答Agent,通用提點(diǎn)神器

作者:CoV團(tuán)隊(duì)

解讀:AI生成未來(lái)

亮點(diǎn)直擊

CoV 框架:首創(chuàng)“視鏈提示”(Chain-of-View, CoV),一個(gè)免訓(xùn)練測(cè)試時(shí)(test-time)的具身問(wèn)答智能體框架。

主動(dòng)視覺(jué)推理:將傳統(tǒng)被動(dòng)的視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)變?yōu)?strong>主動(dòng)的視點(diǎn)搜索者,使其能夠像人類一樣通過(guò)移動(dòng)視角來(lái)探索環(huán)境。

驗(yàn)證測(cè)試時(shí)擴(kuò)展性(Test-Time Scaling):通過(guò)增加推理時(shí)的“行動(dòng)預(yù)算”(即允許模型多走幾步、多看幾次),可以持續(xù)提升模型性能,而無(wú)需重新訓(xùn)練模型。

顯著的通用提升:該方法是模型無(wú)關(guān)的(Model-Agnostic),在多個(gè)主流 VLM(如 GPT-4o, Gemini, Qwen)上均取得了顯著的性能提升。

從宇樹(shù)機(jī)器人登上春晚舞臺(tái),到首屆“世界人形機(jī)器人運(yùn)動(dòng)會(huì)”火遍全球,“具身智能”可謂是今年AI領(lǐng)域最出圈的關(guān)鍵詞之一。人工智能正大舉從數(shù)字領(lǐng)域邁向物理現(xiàn)實(shí),在這一背景下,具身問(wèn)答任務(wù)(EQA) 顯得愈發(fā)重要。EQA任務(wù)的核心挑戰(zhàn)在于,智能體必須像人類一樣,在復(fù)雜的物理空間中定位關(guān)鍵信息,并生成準(zhǔn)確答案。

傳統(tǒng)方法往往依賴有限且視角固定的圖像輸入,這使得VLM難以獲取足夠多與問(wèn)題相關(guān)的視覺(jué)線索。在復(fù)雜的具身問(wèn)答場(chǎng)景中,答案并非一目了然,大多數(shù)問(wèn)題都需要經(jīng)過(guò)多步推理才能解決。

例如,面對(duì)“哪里可以找到汽水?”這樣的問(wèn)題,場(chǎng)景中可能并未直接出現(xiàn)汽水。智能體不僅需要調(diào)用“汽水通常存放在冰箱里”這類常識(shí)知識(shí),還需自主規(guī)劃路徑,在環(huán)境中搜尋冰箱等關(guān)聯(lián)物體。這類問(wèn)題的解答,依賴VLM在充分、相關(guān)的上下文信息中進(jìn)行連續(xù)推理,而無(wú)法通過(guò)單次的生成步驟來(lái)完成。

研究人員提出了一種多步推理的具身問(wèn)答智能體框架:Chain of View(CoV),旨在實(shí)現(xiàn)從被動(dòng)觀察到迭代式自主探索的轉(zhuǎn)變。應(yīng)用CoV框架后,模型整體性能在最新的EQA基準(zhǔn)測(cè)試上平均提升了10.82% 。其中,Qwen3-VL-Flash模型提升達(dá)到了13.62% 。

粗粒度篩選,快速確定視角錨點(diǎn)

CoV的整體流程包含兩個(gè)階段:粗粒度視角篩選(Coarse-grained View Selection)與細(xì)粒度視角調(diào)整(Fine-grained View Adjustment)。

在實(shí)際場(chǎng)景中,智能體獲取的視覺(jué)輸入通常來(lái)源于一段連續(xù)的視頻片段。這些原始幀往往包含大量冗余信息。對(duì)于任何一個(gè)具體問(wèn)題,通常只有少數(shù)幾幀圖像與其相關(guān)。而過(guò)多的無(wú)關(guān)視覺(jué)信息,反而會(huì)干擾模型的判斷。

為此,CoV引入了視角粗選智能體,其核心任務(wù)是從原始可用的視角中,主動(dòng)篩選出與當(dāng)前問(wèn)題最相關(guān)的關(guān)鍵視角,從而為后續(xù)的推理步驟提供與問(wèn)題強(qiáng)相關(guān)的視角基礎(chǔ)。

細(xì)粒度調(diào)整,精確鎖定問(wèn)題相關(guān)視角

以往的方法通常將智能體置于被動(dòng),它只能從一組預(yù)先給定的、有限的固定圖像中尋找答案。這種“一步生成”的模式,放棄了進(jìn)一步搜尋相關(guān)環(huán)境細(xì)節(jié)的可能性,也因此限制了模型進(jìn)行深度、多步思考的能力。

受思維鏈(CoT)啟發(fā),研究人員提出細(xì)粒度的視角調(diào)整機(jī)制。該方法能為模型動(dòng)態(tài)補(bǔ)充與問(wèn)題相關(guān)的環(huán)境信息,讓智能體在持續(xù)的觀察與思考中逐步逼近答案。對(duì)粗粒度視角篩選階段得到的視覺(jué)錨點(diǎn),VLM會(huì)規(guī)劃并執(zhí)行一系列視角調(diào)整動(dòng)作,包括平移、旋轉(zhuǎn)以及在不同視角間切換三類操作。

這一系列視角調(diào)整使得智能體能夠主動(dòng)地、有目的地調(diào)整其觀察位置與朝向,從而獲取對(duì)解答問(wèn)題至關(guān)重要的環(huán)境細(xì)節(jié),提升EQA表現(xiàn)。 當(dāng)智能體認(rèn)為已經(jīng)獲取到足夠的信息回答問(wèn)題時(shí),停止視角調(diào)整,并基于精心構(gòu)建的視覺(jué)上下文給出最終答案。

刷新EQA基準(zhǔn)測(cè)試

研究人員在包括OpenEQA、ScanQA、SQA3D等最新的EQA基準(zhǔn)測(cè)試上進(jìn)行了大量實(shí)驗(yàn)。在反映生成文本與人類回答相似度的CIDEr指標(biāo)上,CoV得分達(dá)到116;在ScanQA數(shù)據(jù)集上的首次回答準(zhǔn)確率(EM@1)也達(dá)到31.9%。應(yīng)用CoV框架后,VLM整體性能在OpenEQA測(cè)試基準(zhǔn)上平均提升了10.82%。

強(qiáng)大的Test-time Scaling性能

研究人員還發(fā)現(xiàn),智能體自主行動(dòng)步數(shù)越多,獲取的信息越多,EQA任務(wù)的表現(xiàn)也會(huì)呈現(xiàn)上升趨勢(shì)。在不限制行動(dòng)步數(shù)的情況下,絕大多數(shù)問(wèn)題所涉及的行動(dòng)步數(shù)偏少,集中在1到3步。隨著動(dòng)作步數(shù)的增加,模型在相應(yīng)問(wèn)題上的得分呈現(xiàn)出明顯的上升趨勢(shì)。

通過(guò)在提示詞中限制VLM的最小行動(dòng)步數(shù),與僅允許單步行動(dòng)的設(shè)置相比,提升動(dòng)作步數(shù)上限后VLM性能平均提高了2.51%。這一結(jié)果表明,多步推理能有效增強(qiáng)智能體在具身問(wèn)答任務(wù)中的表現(xiàn)。CoV無(wú)需額外訓(xùn)練,僅通過(guò)增加行動(dòng)步數(shù)即可實(shí)現(xiàn)性能增益,展現(xiàn)出顯著的“無(wú)需訓(xùn)練,測(cè)試擴(kuò)展”潛力。

總的來(lái)講,CoV是一個(gè)多步推理具身問(wèn)答Agent框架,能允許VLM自主獲取更多和問(wèn)題相關(guān)的視角。這項(xiàng)工作有效提升了VLM在EQA任務(wù)上的表現(xiàn),并且具備test-time scaling的潛力,為通向在復(fù)雜空間中行動(dòng)、適應(yīng)并探索的具身智能系統(tǒng),提供了新的可能性。

參考文獻(xiàn)

[1] CoV: Chain-of-View Prompting for Spatial Reasoning

       原文標(biāo)題 : Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問(wèn)答Agent,通用提點(diǎn)神器

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)