123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

Qwen3-VL-Flash提升13.62%！浙大等首創(chuàng)CoV:多步推理具身問(wèn)答Agent，通用提點(diǎn)神器

2026-01-14 14:06

AI生成未來(lái)

作者：CoV團(tuán)隊(duì)

解讀：AI生成未來(lái)

亮點(diǎn)直擊

CoV 框架：首創(chuàng)“視鏈提示”（Chain-of-View, CoV），一個(gè)免訓(xùn)練、測(cè)試時(shí)（test-time）的具身問(wèn)答智能體框架。

主動(dòng)視覺(jué)推理：將傳統(tǒng)被動(dòng)的視覺(jué)語(yǔ)言模型（VLM）轉(zhuǎn)變?yōu)?strong>主動(dòng)的視點(diǎn)搜索者，使其能夠像人類一樣通過(guò)移動(dòng)視角來(lái)探索環(huán)境。

驗(yàn)證測(cè)試時(shí)擴(kuò)展性（Test-Time Scaling）：通過(guò)增加推理時(shí)的“行動(dòng)預(yù)算”（即允許模型多走幾步、多看幾次），可以持續(xù)提升模型性能，而無(wú)需重新訓(xùn)練模型。

顯著的通用提升：該方法是模型無(wú)關(guān)的（Model-Agnostic），在多個(gè)主流 VLM（如 GPT-4o, Gemini, Qwen）上均取得了顯著的性能提升。

從宇樹(shù)機(jī)器人登上春晚舞臺(tái)，到首屆“世界人形機(jī)器人運(yùn)動(dòng)會(huì)”火遍全球，“具身智能”可謂是今年AI領(lǐng)域最出圈的關(guān)鍵詞之一。人工智能正大舉從數(shù)字領(lǐng)域邁向物理現(xiàn)實(shí)，在這一背景下，具身問(wèn)答任務(wù)（EQA） 顯得愈發(fā)重要。EQA任務(wù)的核心挑戰(zhàn)在于，智能體必須像人類一樣，在復(fù)雜的物理空間中定位關(guān)鍵信息，并生成準(zhǔn)確答案。

傳統(tǒng)方法往往依賴有限且視角固定的圖像輸入，這使得VLM難以獲取足夠多與問(wèn)題相關(guān)的視覺(jué)線索。在復(fù)雜的具身問(wèn)答場(chǎng)景中，答案并非一目了然，大多數(shù)問(wèn)題都需要經(jīng)過(guò)多步推理才能解決。

例如，面對(duì)“哪里可以找到汽水？”這樣的問(wèn)題，場(chǎng)景中可能并未直接出現(xiàn)汽水。智能體不僅需要調(diào)用“汽水通常存放在冰箱里”這類常識(shí)知識(shí)，還需自主規(guī)劃路徑，在環(huán)境中搜尋冰箱等關(guān)聯(lián)物體。這類問(wèn)題的解答，依賴VLM在充分、相關(guān)的上下文信息中進(jìn)行連續(xù)推理，而無(wú)法通過(guò)單次的生成步驟來(lái)完成。

研究人員提出了一種多步推理的具身問(wèn)答智能體框架：Chain of View(CoV），旨在實(shí)現(xiàn)從被動(dòng)觀察到迭代式自主探索的轉(zhuǎn)變。應(yīng)用CoV框架后，模型整體性能在最新的EQA基準(zhǔn)測(cè)試上平均提升了10.82% 。其中，Qwen3-VL-Flash模型提升達(dá)到了13.62% 。

粗粒度篩選，快速確定視角錨點(diǎn)

CoV的整體流程包含兩個(gè)階段：粗粒度視角篩選（Coarse-grained View Selection）與細(xì)粒度視角調(diào)整（Fine-grained View Adjustment）。

在實(shí)際場(chǎng)景中，智能體獲取的視覺(jué)輸入通常來(lái)源于一段連續(xù)的視頻片段。這些原始幀往往包含大量冗余信息。對(duì)于任何一個(gè)具體問(wèn)題，通常只有少數(shù)幾幀圖像與其相關(guān)。而過(guò)多的無(wú)關(guān)視覺(jué)信息，反而會(huì)干擾模型的判斷。

為此，CoV引入了視角粗選智能體，其核心任務(wù)是從原始可用的視角中，主動(dòng)篩選出與當(dāng)前問(wèn)題最相關(guān)的關(guān)鍵視角，從而為后續(xù)的推理步驟提供與問(wèn)題強(qiáng)相關(guān)的視角基礎(chǔ)。

細(xì)粒度調(diào)整，精確鎖定問(wèn)題相關(guān)視角

以往的方法通常將智能體置于被動(dòng)，它只能從一組預(yù)先給定的、有限的固定圖像中尋找答案。這種“一步生成”的模式，放棄了進(jìn)一步搜尋相關(guān)環(huán)境細(xì)節(jié)的可能性，也因此限制了模型進(jìn)行深度、多步思考的能力。

受思維鏈（CoT）啟發(fā)，研究人員提出細(xì)粒度的視角調(diào)整機(jī)制。該方法能為模型動(dòng)態(tài)補(bǔ)充與問(wèn)題相關(guān)的環(huán)境信息，讓智能體在持續(xù)的觀察與思考中逐步逼近答案。對(duì)粗粒度視角篩選階段得到的視覺(jué)錨點(diǎn)，VLM會(huì)規(guī)劃并執(zhí)行一系列視角調(diào)整動(dòng)作，包括平移、旋轉(zhuǎn)以及在不同視角間切換三類操作。

這一系列視角調(diào)整使得智能體能夠主動(dòng)地、有目的地調(diào)整其觀察位置與朝向，從而獲取對(duì)解答問(wèn)題至關(guān)重要的環(huán)境細(xì)節(jié)，提升EQA表現(xiàn)。當(dāng)智能體認(rèn)為已經(jīng)獲取到足夠的信息回答問(wèn)題時(shí)，停止視角調(diào)整，并基于精心構(gòu)建的視覺(jué)上下文給出最終答案。

刷新EQA基準(zhǔn)測(cè)試

研究人員在包括OpenEQA、ScanQA、SQA3D等最新的EQA基準(zhǔn)測(cè)試上進(jìn)行了大量實(shí)驗(yàn)。在反映生成文本與人類回答相似度的CIDEr指標(biāo)上，CoV得分達(dá)到116；在ScanQA數(shù)據(jù)集上的首次回答準(zhǔn)確率（EM@1）也達(dá)到31.9%。應(yīng)用CoV框架后，VLM整體性能在OpenEQA測(cè)試基準(zhǔn)上平均提升了10.82%。

強(qiáng)大的Test-time Scaling性能

研究人員還發(fā)現(xiàn)，智能體自主行動(dòng)步數(shù)越多，獲取的信息越多，EQA任務(wù)的表現(xiàn)也會(huì)呈現(xiàn)上升趨勢(shì)。在不限制行動(dòng)步數(shù)的情況下，絕大多數(shù)問(wèn)題所涉及的行動(dòng)步數(shù)偏少，集中在1到3步。隨著動(dòng)作步數(shù)的增加，模型在相應(yīng)問(wèn)題上的得分呈現(xiàn)出明顯的上升趨勢(shì)。

通過(guò)在提示詞中限制VLM的最小行動(dòng)步數(shù)，與僅允許單步行動(dòng)的設(shè)置相比，提升動(dòng)作步數(shù)上限后VLM性能平均提高了2.51%。這一結(jié)果表明，多步推理能有效增強(qiáng)智能體在具身問(wèn)答任務(wù)中的表現(xiàn)。CoV無(wú)需額外訓(xùn)練，僅通過(guò)增加行動(dòng)步數(shù)即可實(shí)現(xiàn)性能增益，展現(xiàn)出顯著的“無(wú)需訓(xùn)練，測(cè)試擴(kuò)展”潛力。

總的來(lái)講，CoV是一個(gè)多步推理具身問(wèn)答Agent框架，能允許VLM自主獲取更多和問(wèn)題相關(guān)的視角。這項(xiàng)工作有效提升了VLM在EQA任務(wù)上的表現(xiàn)，并且具備test-time scaling的潛力，為通向在復(fù)雜空間中行動(dòng)、適應(yīng)并探索的具身智能系統(tǒng)，提供了新的可能性。

參考文獻(xiàn)

[1] CoV: Chain-of-View Prompting for Spatial Reasoning

原文標(biāo)題 : Qwen3-VL-Flash提升13.62%！浙大等首創(chuàng)CoV:多步推理具身問(wèn)答Agent，通用提點(diǎn)神器

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网