訂閱
糾錯(cuò)
加入自媒體

視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動(dòng)搜尋關(guān)鍵幀,登頂Video-Holmes!

作者:Xiangyu Zeng等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

Video-o3,一個(gè)創(chuàng)新的框架,它通過(guò)迭代地發(fā)現(xiàn)顯著的視覺線索、對(duì)關(guān)鍵片段進(jìn)行細(xì)致檢查以及在收集到足夠證據(jù)時(shí)自適應(yīng)終止搜索過(guò)程,解決了長(zhǎng)視頻多跳推理的挑戰(zhàn)。

解決注意力分散: 為了應(yīng)對(duì)推理和工具調(diào)用異構(gòu)性導(dǎo)致的注意力分散問(wèn)題,本文提出了任務(wù)解耦注意力掩蔽,它可以在SFT(監(jiān)督微調(diào))階段隔離每一步的注意力,同時(shí)保持共享的全局上下文,從而實(shí)現(xiàn)高效的解耦專家訓(xùn)練。

控制上下文增長(zhǎng)和提高效率: 引入了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì),用于控制多輪交互中的上下文長(zhǎng)度增長(zhǎng)。這個(gè)獎(jiǎng)勵(lì)機(jī)制在強(qiáng)化學(xué)習(xí)(RL)階段平衡了線索探索和推理效率,通過(guò)結(jié)合中間線索準(zhǔn)確性和回合衰減因子,確保了推理過(guò)程的規(guī)范性。

大規(guī)模訓(xùn)練數(shù)據(jù): 為了支持大規(guī)模訓(xùn)練,開發(fā)了一個(gè)數(shù)據(jù)合成流程,并構(gòu)建了Seer-173K數(shù)據(jù)集,其中包含173K條高質(zhì)量的工具交互軌跡,從而實(shí)現(xiàn)了有效的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

卓越的性能: Video-o3在多跳證據(jù)尋找和推理能力方面表現(xiàn)出色,在MLVU上取得了72.1%的準(zhǔn)確率,在Video-Holmes上取得了46.5%的準(zhǔn)確率,顯著優(yōu)于現(xiàn)有SOTA方法。

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有的多模態(tài)大型語(yǔ)言模型(MLLMs)在長(zhǎng)視頻理解方面主要依賴統(tǒng)一采樣和單輪推理,這限制了它們?cè)诖罅咳哂嘈畔⒅凶R(shí)別稀疏但關(guān)鍵證據(jù)的能力。

長(zhǎng)視頻中存在豐富的視覺線索和復(fù)雜的時(shí)序依賴,模型不僅需要精確地定位與查詢相關(guān)的時(shí)刻,還需要對(duì)這些時(shí)刻進(jìn)行推理以實(shí)現(xiàn)準(zhǔn)確、特定于查詢的理解,而現(xiàn)有方法難以做到這一點(diǎn)。

大多數(shù)現(xiàn)有方法采用統(tǒng)一幀采樣和單輪推理策略,這會(huì)稀釋關(guān)鍵視覺證據(jù),導(dǎo)致計(jì)算開銷大和推理準(zhǔn)確性下降。

早期的“線索尋找+答案推理”原型過(guò)于依賴手工啟發(fā)式方法,缺乏端到端優(yōu)化,并且將線索尋找與推理解耦,訓(xùn)練為孤立的單輪模塊,沒有多步上下文共享。

提出的方案

引入Video-o3,一個(gè)支持迭代發(fā)現(xiàn)顯著視覺線索、對(duì)關(guān)鍵片段進(jìn)行細(xì)粒度檢查以及在獲得足夠證據(jù)后自適應(yīng)終止的新框架。

賦予MLLMs類人探索性線索尋找能力,以實(shí)現(xiàn)更高效和準(zhǔn)確的長(zhǎng)視頻理解。

通過(guò)原生多輪工具調(diào)用進(jìn)行端到端訓(xùn)練,以實(shí)現(xiàn)更強(qiáng)的靈活性和聯(lián)合推理。

應(yīng)用的技術(shù)

任務(wù)解耦注意力掩蔽 (Task-Decoupled Attention Masking): 用于解決推理和工具調(diào)用異構(gòu)性引起的注意力分散問(wèn)題,該技術(shù)隔離了每一步的注意力,同時(shí)保留了共享的全局上下文。

可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì) (Verifiable Trajectory-Guided Reward): 用于控制多輪交互中的上下文長(zhǎng)度增長(zhǎng),平衡了探索覆蓋率和推理效率。

數(shù)據(jù)合成流程與Seeker-173K數(shù)據(jù)集: 開發(fā)了一個(gè)數(shù)據(jù)合成流程并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集,以支持大規(guī)模訓(xùn)練,實(shí)現(xiàn)有效的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

達(dá)到的效果

Video-o3在MLVU上取得了72.1%的準(zhǔn)確率,在Video-Holmes上取得了46.5%的準(zhǔn)確率。

這些結(jié)果證明了Video-o3強(qiáng)大的多跳證據(jù)尋找和推理能力,并驗(yàn)證了原生工具調(diào)用在長(zhǎng)視頻場(chǎng)景中的有效性。

在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中,Video-o3顯著優(yōu)于現(xiàn)有最先進(jìn)的方法。

方法

Video-o3 的架構(gòu)概覽如圖 3 所示。在初始交互階段,模型會(huì)接收到工具使用說(shuō)明、用戶查詢以及視頻的全局視圖。在處理這些輸入后,模型進(jìn)入內(nèi)部推理過(guò)程:它會(huì)分解查詢以精準(zhǔn)定位視覺證據(jù),并評(píng)估當(dāng)前觀測(cè)信息的充分性。這一評(píng)估過(guò)程驅(qū)動(dòng)模型采取兩種截然不同的策略之一:

(1)線索搜尋(Clue Seeking): 若現(xiàn)有線索模糊或不足,模型會(huì)調(diào)用工具來(lái)審視特定視頻片段的細(xì)粒度細(xì)節(jié),從而消除不確定性。

(2)答案推理(Answer Reasoning): 若已識(shí)別出足以支持答案的清晰視覺證據(jù),模型則直接生成最終響應(yīng)。

當(dāng)選擇線索搜尋策略時(shí),模型會(huì)生成一個(gè)結(jié)構(gòu)化指令,其中包含時(shí)間窗口以及當(dāng)前輪次的視覺 Token 配額(visual token quota),用以指導(dǎo)外部工具提取目標(biāo)視頻片段。外部工具系統(tǒng)會(huì)根據(jù)該視覺配額動(dòng)態(tài)計(jì)算每一幀的 Token 限制(具體計(jì)算公式見附錄 A)。隨后,重新采樣的片段將與提示詞一同整合進(jìn)對(duì)話序列中,觸發(fā)下一階段的推理過(guò)程。這一反饋循環(huán)將持續(xù)進(jìn)行,直到模型收斂并得出最終答案。

任務(wù)解耦冷啟動(dòng)

雖然共享上下文架構(gòu)能夠?qū)崿F(xiàn)步驟行為與端到端模型優(yōu)化之間的協(xié)同,但它也引入了一個(gè)關(guān)鍵的注意力分散問(wèn)題。由于異質(zhì)的上下文緩沖區(qū)交錯(cuò)包含了低分辨率的全局視頻 Token、源自工具的細(xì)粒度局部片段以及中間推理文本,所有 Token 在不考慮任務(wù)相關(guān)性的情況下共享完整的感受野。結(jié)果導(dǎo)致注意力可能會(huì)被無(wú)關(guān)的上下文所干擾。例如,在線索搜尋步驟中,當(dāng)需要全局視頻上下文時(shí),注意力可能會(huì)被之前剪裁的視頻片段分散。同樣,在回答階段,本工作觀察到了“虛假思考”(fake thinking)現(xiàn)象:盡管成功檢索到了證據(jù),但最終的預(yù)測(cè)結(jié)果卻與中間推理不一致(見附錄 I)。這一現(xiàn)象與純文本大語(yǔ)言模型推理中此前報(bào)道的忠實(shí)度(faithfulness)問(wèn)題相呼應(yīng)。

為了解決這一問(wèn)題,本研究在監(jiān)督微調(diào)(SFT)過(guò)程中引入了任務(wù)解耦注意力掩碼(Task-Decoupled Attention Masking, TDAM),如圖 4 所示。該策略通過(guò)在 SFT 過(guò)程中強(qiáng)制執(zhí)行嚴(yán)格的可見性約束,顯式地將線索定位與答案推理進(jìn)行解耦,從而有效地隔離了這兩種模式的訓(xùn)練。具體而言,在線索搜尋階段,模型被限制為僅關(guān)注全局視頻輸入,迫使其學(xué)習(xí)基于全局上下文的規(guī)劃策略。相反,在答案推理階段,全局視圖被掩蔽,強(qiáng)制模型僅從高分辨率的工具觀測(cè)中推導(dǎo)答案。為了平衡這種解耦的專業(yè)能力與整體推理的需求,本工作僅在 10% 的工具使用訓(xùn)練數(shù)據(jù)中應(yīng)用此掩碼。這確保了模型在保持強(qiáng)大任務(wù)針對(duì)性的同時(shí),仍能保留整體推理的能力。

形式上,令  表示代表全局觀測(cè)的視覺 Token 集合,令  表示源自后續(xù)工具調(diào)用的視覺 Token 集合。令  為當(dāng)前正在生成的 Token 的索引, 為上下文 Token 的索引。本工作將任務(wù)解耦注意力掩碼  定義如下:

其中  指示模型的當(dāng)前策略。通過(guò)這種精確的掩蔽機(jī)制,Video-o3 能夠有效避免長(zhǎng)視頻理解中的信息過(guò)載,確保線索尋找的聚焦性與答案生成的忠實(shí)度。

軌跡引導(dǎo)的強(qiáng)化學(xué)習(xí)

每次工具調(diào)用都需要對(duì)局部視頻片段進(jìn)行詳細(xì)觀測(cè),這本質(zhì)上會(huì)產(chǎn)生大量的 Token 消耗。這往往導(dǎo)致上下文長(zhǎng)度溢出和過(guò)度的計(jì)算成本。本工作從兩個(gè)互補(bǔ)的角度來(lái)應(yīng)對(duì)這一挑戰(zhàn)。首先,強(qiáng)調(diào)精準(zhǔn)的線索定位,要求模型僅準(zhǔn)確識(shí)別最相關(guān)的視頻片段,從而最大限度地減少因檢索無(wú)關(guān)內(nèi)容造成的上下文浪費(fèi)。其次,提倡主動(dòng)的探索終止,使模型能夠評(píng)估積累的證據(jù)對(duì)于給定查詢是否充足,并據(jù)此停止進(jìn)一步探索。這避免了不必要的工具交互,并顯著降低了冗余的計(jì)算開銷。

為實(shí)現(xiàn)這一目標(biāo),本文引入了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì)(Verifiable Trajectory-Guided Reward, VTGR)。該機(jī)制旨在在無(wú)約束的自主探索與效率驅(qū)動(dòng)的軌跡正則化之間取得微妙的平衡。具體而言,我們將獎(jiǎng)勵(lì)函數(shù)  公式化為答案正確性、結(jié)構(gòu)有效性和探索效率的組合:

其中  代表基礎(chǔ)答案獎(jiǎng)勵(lì), 表示格式獎(jiǎng)勵(lì),定義為所有輪次中有效格式的歸一化比率。項(xiàng)  是核心的軌跡引導(dǎo)乘數(shù),它根據(jù)定位精度和路徑簡(jiǎn)潔性動(dòng)態(tài)調(diào)節(jié)答案獎(jiǎng)勵(lì):

這里, 作為基礎(chǔ)附加獎(jiǎng)勵(lì), 是由超參數(shù)控制的權(quán)重系數(shù)。項(xiàng) (混合線索分?jǐn)?shù))激勵(lì)精準(zhǔn)定位,而 (輪次衰減因子)促進(jìn)敏捷終止。

混合線索分?jǐn)?shù)(Hybrid Clue Score): 為減輕因錯(cuò)誤搜尋導(dǎo)致的上下文浪費(fèi),本文采用基于標(biāo)簽的策略來(lái)引導(dǎo)線索搜尋的精度。我們將樣本分類為標(biāo)簽 。對(duì)于“自由探索”樣本(), 被設(shè)為常數(shù)  以鼓勵(lì)多樣性。相反,對(duì)于“軌跡引導(dǎo)”樣本(),分?jǐn)?shù)源自預(yù)測(cè)區(qū)間與真值(Ground Truth)之間的對(duì)齊程度。這根據(jù)線索定位的精度動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì),阻止模型將上下文窗口浪費(fèi)在無(wú)關(guān)片段上。具體而言,混合線索分?jǐn)?shù)計(jì)算如下:

其中 、 和  分別代表交并比(Intersection over Union)、預(yù)測(cè)交集比(Intersection over Prediction)和真值交集比(Intersection over Ground Truth)。

輪次衰減因子(Turn Decay Factor): 為確保敏捷終止并防止冗余循環(huán),本文應(yīng)用了超輪次懲罰。令  表示實(shí)際的工具調(diào)用次數(shù), 為標(biāo)注的參考限制。衰減因子  對(duì)超過(guò)必要步驟的軌跡進(jìn)行懲罰:

其中  是衰減懲罰權(quán)重。該機(jī)制有效地阻止模型在證據(jù)已充足時(shí)進(jìn)行無(wú)意義的工具調(diào)用,從而促進(jìn)簡(jiǎn)潔的推理鏈。

優(yōu)化: 一旦建立了獎(jiǎng)勵(lì)分?jǐn)?shù),本文利用組相對(duì)策略優(yōu)化(Group Relative Policy Optimization, GRPO)通過(guò)最大化每個(gè)采樣組內(nèi)的相對(duì)優(yōu)勢(shì)來(lái)迭代優(yōu)化策略。為了進(jìn)一步穩(wěn)定針對(duì)長(zhǎng)形式交互的訓(xùn)練,本文采用了 Mini-o 中引入的超輪次掩碼(over-turn masking)技術(shù)。

數(shù)據(jù)集

訓(xùn)練多模態(tài)大語(yǔ)言模型(MLLMs)掌握原生交錯(cuò)工具調(diào)用的主要障礙在于,缺乏帶有探索軌跡的高質(zhì)量數(shù)據(jù),F(xiàn)有的長(zhǎng)視頻數(shù)據(jù)集主要局限于靜態(tài)的“視頻-問(wèn)題-答案”三元組,缺乏顯式的、帶有時(shí)間戳錨點(diǎn)的中間推理鏈。這種數(shù)據(jù)的缺失使得模型難以通過(guò)監(jiān)督范式學(xué)習(xí)復(fù)雜的多步探索行為。為了彌補(bǔ)這一差距,本工作引入了一種可擴(kuò)展的自動(dòng)數(shù)據(jù)合成流水線,能夠?yàn)楸O(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)合成大規(guī)模訓(xùn)練數(shù)據(jù)。利用該流水線,本工作構(gòu)建了 Seeker-173K,這是一個(gè)由原生多輪工具交互軌跡組成的高質(zhì)量數(shù)據(jù)集,旨在培養(yǎng)高效且自主的工具使用能力。

數(shù)據(jù)合成流水線 (Data Synthesis Pipeline): 本工作收集了現(xiàn)有的優(yōu)質(zhì)“視頻-問(wèn)題-答案”三元組,并利用 Gemini 2.5 Pro 輔助構(gòu)建的高質(zhì)量長(zhǎng)視頻數(shù)據(jù)進(jìn)行了補(bǔ)充。作為原始語(yǔ)料庫(kù),這些樣本通過(guò)一個(gè)嚴(yán)謹(jǐn)?shù)乃碾A段流水線處理,以生成可驗(yàn)證的工具調(diào)用軌跡:

(1) 線索定位 (Clue Localization): 首先將原始三元組輸入至視覺語(yǔ)言模型(VLM),以識(shí)別所有包含關(guān)鍵視覺線索的時(shí)間段,并為每個(gè)區(qū)間生成詳細(xì)描述。

(2) 有效性驗(yàn)證 (Validity Verification): 為了消除噪聲,本工作提取這些定位片段,并利用 VLM 對(duì)照原始查詢進(jìn)行重新評(píng)估。本工作僅保留那些能夠僅憑裁剪片段即可正確推導(dǎo)出真值答案(Ground-truth answer)的樣本,從而保證視覺證據(jù)的充分性。

(3) 軌跡生成 (Trajectory Generation): 隨后將問(wèn)題、經(jīng)過(guò)驗(yàn)證的片段及其描述輸入至強(qiáng)大的 VLM。模型受命合成包含格式化工具調(diào)用的逐步思維鏈(Chain-of-Thought),產(chǎn)出由精確時(shí)間戳錨定的顯式中間軌跡。

(4) 邏輯一致性檢查 (Logical Consistency Check): 最后,由一個(gè) LLM 充當(dāng)驗(yàn)證器來(lái)審查生成的邏輯鏈。本工作嚴(yán)格過(guò)濾掉有缺陷的實(shí)例,僅保留邏輯嚴(yán)密、推理嚴(yán)謹(jǐn)且有事實(shí)視覺證據(jù)強(qiáng)力支撐的樣本。

Seeker-173K 數(shù)據(jù)集 (The Seeker-173K Dataset): 利用上述流水線,本工作策劃了 Seeker-173K,這是一個(gè)包含約 17.3 萬(wàn)條高質(zhì)量軌跡的大規(guī)模數(shù)據(jù)集,專門設(shè)計(jì)用于灌輸自適應(yīng)的智能體行為。Seeker-173K 根據(jù)證據(jù)基數(shù)(evidence cardinality)和視覺顯著性(visual saliency)被嚴(yán)格劃分為四象限分類體系。這種結(jié)構(gòu)化的多樣性使模型能夠掌握不同的能力:

(1) 自適應(yīng)調(diào)用 (Adaptive Invocation): 模型學(xué)習(xí)在全局信息充足時(shí)跳過(guò)工具使用,僅在線索細(xì)微或轉(zhuǎn)瞬即逝時(shí)才部署工具。

(2) 復(fù)雜推理 (Complex Reasoning): 模型在跨越不同時(shí)間戳的場(chǎng)景下執(zhí)行邏輯鏈?zhǔn)酵评。此外,為了增?qiáng)魯棒性,本工作還加入了補(bǔ)充性的“自我反思”和“自由格式”任務(wù),提供關(guān)于錯(cuò)誤校正和自主規(guī)劃的監(jiān)督。關(guān)于數(shù)據(jù)集的完整統(tǒng)計(jì)信息和任務(wù)定義,請(qǐng)參閱附錄 C。

實(shí)驗(yàn)

Video-o3在視頻問(wèn)答任務(wù)上與現(xiàn)有方法進(jìn)行了比較,如下表1所示。Video-o3在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中顯著優(yōu)于現(xiàn)有方法,并在多個(gè)視頻推理基準(zhǔn)測(cè)試中表現(xiàn)出色。具體來(lái)說(shuō),Video-o3的RL-only變體在VideoMME上達(dá)到了66.1%的準(zhǔn)確率,超過(guò)了領(lǐng)先的競(jìng)爭(zhēng)對(duì)手VideoZoomer (65.2%)。在SFT冷啟動(dòng)初始化后,性能進(jìn)一步提升至66.5%。值得注意的是,Video-o3在需要精確觀察局部細(xì)節(jié)的基準(zhǔn)測(cè)試中表現(xiàn)出卓越的能力,例如MLVU、LVBench和LongVideoBench。即使沒有SFT,經(jīng)過(guò)RL訓(xùn)練的模型也以顯著優(yōu)勢(shì)優(yōu)于現(xiàn)有的原生工具使用方法,分別獲得了71.9%、47.5%和59.3%的準(zhǔn)確率。SFT的集成進(jìn)一步鞏固了這一優(yōu)勢(shì),證明了Video-o3強(qiáng)大的長(zhǎng)上下文感知能力。

在視頻推理方面,Video-o3在復(fù)雜推理領(lǐng)域表現(xiàn)出卓越的熟練度。在旨在評(píng)估多學(xué)科推理的VideoMMMU上,RL-only模型取得了50.0%的可喜成績(jī),SFT初始化后進(jìn)一步提高到51.7%。該模型的能力在Video-Holmes上尤為突出,這是一個(gè)需要復(fù)雜多跳線索推理的數(shù)據(jù)集。在這里,即使是RL-only基線也達(dá)到了穩(wěn)健的46.1%,而SFT增強(qiáng)型變體將其改進(jìn)為46.5%。這些結(jié)果強(qiáng)調(diào)了Video-o3在解耦和推導(dǎo)復(fù)雜多跳視覺證據(jù)方面的有效性。

除了通用問(wèn)答外,本工作還在時(shí)間定位方面評(píng)估了Video-o3的能力。如下表2所示,在Charades-STA基準(zhǔn)測(cè)試中,LongVT的mIoU為27.2,甚至低于基線Qwen2.5-VL (mIoU: 43.6)。相比之下,Video-o3表現(xiàn)出強(qiáng)大的性能,mIoU為60.7。這一結(jié)果證實(shí)了本工作方法在精確定位關(guān)鍵視頻片段方面的準(zhǔn)確性,這是一項(xiàng)有助于實(shí)現(xiàn)高效、高精度多輪線索定位和聯(lián)合推理的關(guān)鍵元能力。

下表3展示了任務(wù)解耦注意力掩蔽 (TDAM) 關(guān)鍵組件的消融研究結(jié)果。結(jié)果表明,完全移除注意力掩蔽機(jī)制(表示為Baseline)會(huì)導(dǎo)致長(zhǎng)視頻理解和推理任務(wù)的整體性能下降。此外,僅部分應(yīng)用答案掩蔽或接地掩蔽時(shí),模型的性能仍無(wú)法達(dá)到完整掩蔽策略所實(shí)現(xiàn)的水平。這表明TDAM有效地分離了線索定位和答案推理任務(wù),防止了不同任務(wù)之間的干擾,使模型能夠更有效地收斂到“多輪線索尋找+多跳答案推理”的預(yù)期模式。

下表4詳細(xì)介紹了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì) (VTGR) 中每個(gè)組件的影響。移除獎(jiǎng)勵(lì)乘數(shù)會(huì)導(dǎo)致統(tǒng)一獎(jiǎng)勵(lì)退化為基本的正確性和格式信號(hào),這無(wú)法在早期階段激發(fā)工具使用行為,導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定且難以收斂。如果沒有混合線索分?jǐn)?shù),框架將失去對(duì)工具調(diào)用過(guò)程的關(guān)鍵約束,無(wú)法引導(dǎo)模型走向高效的推理軌跡。此外,缺乏回合衰減因子會(huì)導(dǎo)致推理回合的無(wú)限制擴(kuò)展,這通常會(huì)導(dǎo)致軌跡長(zhǎng)度違反推理時(shí)間限制,從而導(dǎo)致模型無(wú)法提供最終響應(yīng)。這些結(jié)果表明VTGR對(duì)于規(guī)范推理過(guò)程至關(guān)重要,它鼓勵(lì)探索精確的線索片段,同時(shí)抑制多余的交互,最終保證了多跳推理的準(zhǔn)確性和效率。

為了量化多跳推理對(duì)模型性能的貢獻(xiàn),本工作對(duì)最大交互回合數(shù)進(jìn)行了消融研究,如下表5所示。通過(guò)將上限限制為2、4和8回合,模擬了從粗略檢查到全面調(diào)查的場(chǎng)景。經(jīng)驗(yàn)證據(jù)表明,在所有基準(zhǔn)測(cè)試中,交互深度與推理準(zhǔn)確性之間存在持續(xù)的正相關(guān)關(guān)系。這種趨勢(shì)在需要細(xì)粒度檢索和復(fù)雜邏輯的數(shù)據(jù)集(例如MLVU和VideoMMMU)中最為明顯。這種提升凸顯了復(fù)雜的長(zhǎng)視頻查詢通常超出淺層推理能力。在8回合時(shí)的持續(xù)改進(jìn)驗(yàn)證了Video-o3的核心前提:原生交錯(cuò)工具調(diào)用范式使模型能夠?qū)?fù)雜的查詢分解為可管理的子目標(biāo)。Video-o3利用擴(kuò)展的預(yù)算迭代地解決歧義,通過(guò)穩(wěn)健的多跳推理鏈有效地將不確定的初始假設(shè)轉(zhuǎn)化為經(jīng)過(guò)驗(yàn)證的結(jié)論,而不是屈服于上下文漂移。

結(jié)論

Video-o3,這是一個(gè)賦予多模態(tài)大語(yǔ)言模型(MLLM)原生交錯(cuò)工具調(diào)用能力的框架,用于長(zhǎng)視頻理解。為了實(shí)現(xiàn)穩(wěn)健的端到端訓(xùn)練,引入了任務(wù)解耦注意力掩蔽機(jī)制,以解決異構(gòu)上下文中的注意力分散問(wèn)題,并在Supervised Fine-Tuning (SFT) 階段實(shí)現(xiàn)高效的解耦專家訓(xùn)練。此外,還設(shè)計(jì)了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì)機(jī)制,它結(jié)合了中間線索準(zhǔn)確性和回合衰減因子,從而在強(qiáng)化學(xué)習(xí) (RL) 階段平衡了線索探索和推理效率。為了支持大規(guī)模訓(xùn)練,本文進(jìn)一步開發(fā)了一個(gè)數(shù)據(jù)合成流程,并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集,以實(shí)現(xiàn)有效的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。通過(guò)對(duì)MLVU和Video-Holmes等多個(gè)長(zhǎng)視頻理解和推理基準(zhǔn)測(cè)試的廣泛實(shí)驗(yàn),Video-o3的性能顯著優(yōu)于現(xiàn)有最先進(jìn)的方法,證實(shí)了其強(qiáng)大的多跳證據(jù)尋找和推理能力,并驗(yàn)證了原生工具調(diào)用在長(zhǎng)視頻場(chǎng)景中的有效性。

參考文獻(xiàn)

[1] Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning.

       原文標(biāo)題 : 視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動(dòng)搜尋關(guān)鍵幀,登頂Video-Holmes!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)