123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

視頻理解大模型覺醒！Video-o3發(fā)布：像偵探一樣主動(dòng)搜尋關(guān)鍵幀，登頂Video-Holmes！

2026-02-05 14:53

AI生成未來(lái)

作者：Xiangyu Zeng等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

Video-o3，一個(gè)創(chuàng)新的框架，它通過(guò)迭代地發(fā)現(xiàn)顯著的視覺線索、對(duì)關(guān)鍵片段進(jìn)行細(xì)致檢查以及在收集到足夠證據(jù)時(shí)自適應(yīng)終止搜索過(guò)程，解決了長(zhǎng)視頻多跳推理的挑戰(zhàn)。

解決注意力分散： 為了應(yīng)對(duì)推理和工具調(diào)用異構(gòu)性導(dǎo)致的注意力分散問(wèn)題，本文提出了任務(wù)解耦注意力掩蔽，它可以在SFT（監(jiān)督微調(diào)）階段隔離每一步的注意力，同時(shí)保持共享的全局上下文，從而實(shí)現(xiàn)高效的解耦專家訓(xùn)練。

控制上下文增長(zhǎng)和提高效率： 引入了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì)，用于控制多輪交互中的上下文長(zhǎng)度增長(zhǎng)。這個(gè)獎(jiǎng)勵(lì)機(jī)制在強(qiáng)化學(xué)習(xí)（RL）階段平衡了線索探索和推理效率，通過(guò)結(jié)合中間線索準(zhǔn)確性和回合衰減因子，確保了推理過(guò)程的規(guī)范性。

大規(guī)模訓(xùn)練數(shù)據(jù)： 為了支持大規(guī)模訓(xùn)練，開發(fā)了一個(gè)數(shù)據(jù)合成流程，并構(gòu)建了Seer-173K數(shù)據(jù)集，其中包含173K條高質(zhì)量的工具交互軌跡，從而實(shí)現(xiàn)了有效的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

卓越的性能： Video-o3在多跳證據(jù)尋找和推理能力方面表現(xiàn)出色，在MLVU上取得了72.1%的準(zhǔn)確率，在Video-Holmes上取得了46.5%的準(zhǔn)確率，顯著優(yōu)于現(xiàn)有SOTA方法。

總結(jié)速覽

解決的問(wèn)題

現(xiàn)有的多模態(tài)大型語(yǔ)言模型（MLLMs）在長(zhǎng)視頻理解方面主要依賴統(tǒng)一采樣和單輪推理，這限制了它們?cè)诖罅咳哂嘈畔⒅凶R(shí)別稀疏但關(guān)鍵證據(jù)的能力。

長(zhǎng)視頻中存在豐富的視覺線索和復(fù)雜的時(shí)序依賴，模型不僅需要精確地定位與查詢相關(guān)的時(shí)刻，還需要對(duì)這些時(shí)刻進(jìn)行推理以實(shí)現(xiàn)準(zhǔn)確、特定于查詢的理解，而現(xiàn)有方法難以做到這一點(diǎn)。

大多數(shù)現(xiàn)有方法采用統(tǒng)一幀采樣和單輪推理策略，這會(huì)稀釋關(guān)鍵視覺證據(jù)，導(dǎo)致計(jì)算開銷大和推理準(zhǔn)確性下降。

早期的“線索尋找+答案推理”原型過(guò)于依賴手工啟發(fā)式方法，缺乏端到端優(yōu)化，并且將線索尋找與推理解耦，訓(xùn)練為孤立的單輪模塊，沒有多步上下文共享。

提出的方案

引入Video-o3，一個(gè)支持迭代發(fā)現(xiàn)顯著視覺線索、對(duì)關(guān)鍵片段進(jìn)行細(xì)粒度檢查以及在獲得足夠證據(jù)后自適應(yīng)終止的新框架。

賦予MLLMs類人探索性線索尋找能力，以實(shí)現(xiàn)更高效和準(zhǔn)確的長(zhǎng)視頻理解。

通過(guò)原生多輪工具調(diào)用進(jìn)行端到端訓(xùn)練，以實(shí)現(xiàn)更強(qiáng)的靈活性和聯(lián)合推理。

應(yīng)用的技術(shù)

任務(wù)解耦注意力掩蔽 (Task-Decoupled Attention Masking)： 用于解決推理和工具調(diào)用異構(gòu)性引起的注意力分散問(wèn)題，該技術(shù)隔離了每一步的注意力，同時(shí)保留了共享的全局上下文。

可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì) (Verifiable Trajectory-Guided Reward)： 用于控制多輪交互中的上下文長(zhǎng)度增長(zhǎng)，平衡了探索覆蓋率和推理效率。

數(shù)據(jù)合成流程與Seeker-173K數(shù)據(jù)集： 開發(fā)了一個(gè)數(shù)據(jù)合成流程并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集，以支持大規(guī)模訓(xùn)練，實(shí)現(xiàn)有效的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

達(dá)到的效果

Video-o3在MLVU上取得了72.1%的準(zhǔn)確率，在Video-Holmes上取得了46.5%的準(zhǔn)確率。

這些結(jié)果證明了Video-o3強(qiáng)大的多跳證據(jù)尋找和推理能力，并驗(yàn)證了原生工具調(diào)用在長(zhǎng)視頻場(chǎng)景中的有效性。

在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中，Video-o3顯著優(yōu)于現(xiàn)有最先進(jìn)的方法。

方法

Video-o3 的架構(gòu)概覽如圖 3 所示。在初始交互階段，模型會(huì)接收到工具使用說(shuō)明、用戶查詢以及視頻的全局視圖。在處理這些輸入后，模型進(jìn)入內(nèi)部推理過(guò)程：它會(huì)分解查詢以精準(zhǔn)定位視覺證據(jù)，并評(píng)估當(dāng)前觀測(cè)信息的充分性。這一評(píng)估過(guò)程驅(qū)動(dòng)模型采取兩種截然不同的策略之一：

（1）線索搜尋（Clue Seeking）： 若現(xiàn)有線索模糊或不足，模型會(huì)調(diào)用工具來(lái)審視特定視頻片段的細(xì)粒度細(xì)節(jié)，從而消除不確定性。

（2）答案推理（Answer Reasoning）： 若已識(shí)別出足以支持答案的清晰視覺證據(jù)，模型則直接生成最終響應(yīng)。

當(dāng)選擇線索搜尋策略時(shí)，模型會(huì)生成一個(gè)結(jié)構(gòu)化指令，其中包含時(shí)間窗口以及當(dāng)前輪次的視覺 Token 配額（visual token quota），用以指導(dǎo)外部工具提取目標(biāo)視頻片段。外部工具系統(tǒng)會(huì)根據(jù)該視覺配額動(dòng)態(tài)計(jì)算每一幀的 Token 限制（具體計(jì)算公式見附錄 A）。隨后，重新采樣的片段將與提示詞一同整合進(jìn)對(duì)話序列中，觸發(fā)下一階段的推理過(guò)程。這一反饋循環(huán)將持續(xù)進(jìn)行，直到模型收斂并得出最終答案。

任務(wù)解耦冷啟動(dòng)

雖然共享上下文架構(gòu)能夠?qū)崿F(xiàn)步驟行為與端到端模型優(yōu)化之間的協(xié)同，但它也引入了一個(gè)關(guān)鍵的注意力分散問(wèn)題。由于異質(zhì)的上下文緩沖區(qū)交錯(cuò)包含了低分辨率的全局視頻 Token、源自工具的細(xì)粒度局部片段以及中間推理文本，所有 Token 在不考慮任務(wù)相關(guān)性的情況下共享完整的感受野。結(jié)果導(dǎo)致注意力可能會(huì)被無(wú)關(guān)的上下文所干擾。例如，在線索搜尋步驟中，當(dāng)需要全局視頻上下文時(shí)，注意力可能會(huì)被之前剪裁的視頻片段分散。同樣，在回答階段，本工作觀察到了“虛假思考”（fake thinking）現(xiàn)象：盡管成功檢索到了證據(jù)，但最終的預(yù)測(cè)結(jié)果卻與中間推理不一致（見附錄 I）。這一現(xiàn)象與純文本大語(yǔ)言模型推理中此前報(bào)道的忠實(shí)度（faithfulness）問(wèn)題相呼應(yīng)。

為了解決這一問(wèn)題，本研究在監(jiān)督微調(diào)（SFT）過(guò)程中引入了任務(wù)解耦注意力掩碼（Task-Decoupled Attention Masking, TDAM），如圖 4 所示。該策略通過(guò)在 SFT 過(guò)程中強(qiáng)制執(zhí)行嚴(yán)格的可見性約束，顯式地將線索定位與答案推理進(jìn)行解耦，從而有效地隔離了這兩種模式的訓(xùn)練。具體而言，在線索搜尋階段，模型被限制為僅關(guān)注全局視頻輸入，迫使其學(xué)習(xí)基于全局上下文的規(guī)劃策略。相反，在答案推理階段，全局視圖被掩蔽，強(qiáng)制模型僅從高分辨率的工具觀測(cè)中推導(dǎo)答案。為了平衡這種解耦的專業(yè)能力與整體推理的需求，本工作僅在 10% 的工具使用訓(xùn)練數(shù)據(jù)中應(yīng)用此掩碼。這確保了模型在保持強(qiáng)大任務(wù)針對(duì)性的同時(shí)，仍能保留整體推理的能力。

形式上，令表示代表全局觀測(cè)的視覺 Token 集合，令表示源自后續(xù)工具調(diào)用的視覺 Token 集合。令為當(dāng)前正在生成的 Token 的索引，為上下文 Token 的索引。本工作將任務(wù)解耦注意力掩碼定義如下：

其中指示模型的當(dāng)前策略。通過(guò)這種精確的掩蔽機(jī)制，Video-o3 能夠有效避免長(zhǎng)視頻理解中的信息過(guò)載，確保線索尋找的聚焦性與答案生成的忠實(shí)度。

軌跡引導(dǎo)的強(qiáng)化學(xué)習(xí)

每次工具調(diào)用都需要對(duì)局部視頻片段進(jìn)行詳細(xì)觀測(cè)，這本質(zhì)上會(huì)產(chǎn)生大量的 Token 消耗。這往往導(dǎo)致上下文長(zhǎng)度溢出和過(guò)度的計(jì)算成本。本工作從兩個(gè)互補(bǔ)的角度來(lái)應(yīng)對(duì)這一挑戰(zhàn)。首先，強(qiáng)調(diào)精準(zhǔn)的線索定位，要求模型僅準(zhǔn)確識(shí)別最相關(guān)的視頻片段，從而最大限度地減少因檢索無(wú)關(guān)內(nèi)容造成的上下文浪費(fèi)。其次，提倡主動(dòng)的探索終止，使模型能夠評(píng)估積累的證據(jù)對(duì)于給定查詢是否充足，并據(jù)此停止進(jìn)一步探索。這避免了不必要的工具交互，并顯著降低了冗余的計(jì)算開銷。

為實(shí)現(xiàn)這一目標(biāo)，本文引入了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì)（Verifiable Trajectory-Guided Reward, VTGR）。該機(jī)制旨在在無(wú)約束的自主探索與效率驅(qū)動(dòng)的軌跡正則化之間取得微妙的平衡。具體而言，我們將獎(jiǎng)勵(lì)函數(shù) 公式化為答案正確性、結(jié)構(gòu)有效性和探索效率的組合：

其中代表基礎(chǔ)答案獎(jiǎng)勵(lì)，表示格式獎(jiǎng)勵(lì)，定義為所有輪次中有效格式的歸一化比率。項(xiàng) 是核心的軌跡引導(dǎo)乘數(shù)，它根據(jù)定位精度和路徑簡(jiǎn)潔性動(dòng)態(tài)調(diào)節(jié)答案獎(jiǎng)勵(lì)：

這里，作為基礎(chǔ)附加獎(jiǎng)勵(lì)，是由超參數(shù)控制的權(quán)重系數(shù)。項(xiàng) （混合線索分?jǐn)?shù)）激勵(lì)精準(zhǔn)定位，而（輪次衰減因子）促進(jìn)敏捷終止。

混合線索分?jǐn)?shù)（Hybrid Clue Score）： 為減輕因錯(cuò)誤搜尋導(dǎo)致的上下文浪費(fèi)，本文采用基于標(biāo)簽的策略來(lái)引導(dǎo)線索搜尋的精度。我們將樣本分類為標(biāo)簽。對(duì)于“自由探索”樣本（），被設(shè)為常數(shù) 以鼓勵(lì)多樣性。相反，對(duì)于“軌跡引導(dǎo)”樣本（），分?jǐn)?shù)源自預(yù)測(cè)區(qū)間與真值（Ground Truth）之間的對(duì)齊程度。這根據(jù)線索定位的精度動(dòng)態(tài)調(diào)整獎(jiǎng)勵(lì)，阻止模型將上下文窗口浪費(fèi)在無(wú)關(guān)片段上。具體而言，混合線索分?jǐn)?shù)計(jì)算如下：

其中、和分別代表交并比（Intersection over Union）、預(yù)測(cè)交集比（Intersection over Prediction）和真值交集比（Intersection over Ground Truth）。

輪次衰減因子（Turn Decay Factor）： 為確保敏捷終止并防止冗余循環(huán)，本文應(yīng)用了超輪次懲罰。令表示實(shí)際的工具調(diào)用次數(shù)，為標(biāo)注的參考限制。衰減因子對(duì)超過(guò)必要步驟的軌跡進(jìn)行懲罰：

其中是衰減懲罰權(quán)重。該機(jī)制有效地阻止模型在證據(jù)已充足時(shí)進(jìn)行無(wú)意義的工具調(diào)用，從而促進(jìn)簡(jiǎn)潔的推理鏈。

優(yōu)化： 一旦建立了獎(jiǎng)勵(lì)分?jǐn)?shù)，本文利用組相對(duì)策略優(yōu)化（Group Relative Policy Optimization, GRPO）通過(guò)最大化每個(gè)采樣組內(nèi)的相對(duì)優(yōu)勢(shì)來(lái)迭代優(yōu)化策略。為了進(jìn)一步穩(wěn)定針對(duì)長(zhǎng)形式交互的訓(xùn)練，本文采用了 Mini-o 中引入的超輪次掩碼（over-turn masking）技術(shù)。

數(shù)據(jù)集

訓(xùn)練多模態(tài)大語(yǔ)言模型（MLLMs）掌握原生交錯(cuò)工具調(diào)用的主要障礙在于，缺乏帶有探索軌跡的高質(zhì)量數(shù)據(jù)�，F(xiàn)有的長(zhǎng)視頻數(shù)據(jù)集主要局限于靜態(tài)的“視頻-問(wèn)題-答案”三元組，缺乏顯式的、帶有時(shí)間戳錨點(diǎn)的中間推理鏈。這種數(shù)據(jù)的缺失使得模型難以通過(guò)監(jiān)督范式學(xué)習(xí)復(fù)雜的多步探索行為。為了彌補(bǔ)這一差距，本工作引入了一種可擴(kuò)展的自動(dòng)數(shù)據(jù)合成流水線，能夠?yàn)楸O(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）合成大規(guī)模訓(xùn)練數(shù)據(jù)。利用該流水線，本工作構(gòu)建了 Seeker-173K，這是一個(gè)由原生多輪工具交互軌跡組成的高質(zhì)量數(shù)據(jù)集，旨在培養(yǎng)高效且自主的工具使用能力。

數(shù)據(jù)合成流水線 (Data Synthesis Pipeline): 本工作收集了現(xiàn)有的優(yōu)質(zhì)“視頻-問(wèn)題-答案”三元組，并利用 Gemini 2.5 Pro 輔助構(gòu)建的高質(zhì)量長(zhǎng)視頻數(shù)據(jù)進(jìn)行了補(bǔ)充。作為原始語(yǔ)料庫(kù)，這些樣本通過(guò)一個(gè)嚴(yán)謹(jǐn)?shù)乃碾A段流水線處理，以生成可驗(yàn)證的工具調(diào)用軌跡：

(1) 線索定位 (Clue Localization): 首先將原始三元組輸入至視覺語(yǔ)言模型（VLM），以識(shí)別所有包含關(guān)鍵視覺線索的時(shí)間段，并為每個(gè)區(qū)間生成詳細(xì)描述。

(2) 有效性驗(yàn)證 (Validity Verification): 為了消除噪聲，本工作提取這些定位片段，并利用 VLM 對(duì)照原始查詢進(jìn)行重新評(píng)估。本工作僅保留那些能夠僅憑裁剪片段即可正確推導(dǎo)出真值答案（Ground-truth answer）的樣本，從而保證視覺證據(jù)的充分性。

(3) 軌跡生成 (Trajectory Generation): 隨后將問(wèn)題、經(jīng)過(guò)驗(yàn)證的片段及其描述輸入至強(qiáng)大的 VLM。模型受命合成包含格式化工具調(diào)用的逐步思維鏈（Chain-of-Thought），產(chǎn)出由精確時(shí)間戳錨定的顯式中間軌跡。

(4) 邏輯一致性檢查 (Logical Consistency Check): 最后，由一個(gè) LLM 充當(dāng)驗(yàn)證器來(lái)審查生成的邏輯鏈。本工作嚴(yán)格過(guò)濾掉有缺陷的實(shí)例，僅保留邏輯嚴(yán)密、推理嚴(yán)謹(jǐn)且有事實(shí)視覺證據(jù)強(qiáng)力支撐的樣本。

Seeker-173K 數(shù)據(jù)集 (The Seeker-173K Dataset): 利用上述流水線，本工作策劃了 Seeker-173K，這是一個(gè)包含約 17.3 萬(wàn)條高質(zhì)量軌跡的大規(guī)模數(shù)據(jù)集，專門設(shè)計(jì)用于灌輸自適應(yīng)的智能體行為。Seeker-173K 根據(jù)證據(jù)基數(shù)（evidence cardinality）和視覺顯著性（visual saliency）被嚴(yán)格劃分為四象限分類體系。這種結(jié)構(gòu)化的多樣性使模型能夠掌握不同的能力：

(1) 自適應(yīng)調(diào)用 (Adaptive Invocation): 模型學(xué)習(xí)在全局信息充足時(shí)跳過(guò)工具使用，僅在線索細(xì)微或轉(zhuǎn)瞬即逝時(shí)才部署工具。

(2) 復(fù)雜推理 (Complex Reasoning): 模型在跨越不同時(shí)間戳的場(chǎng)景下執(zhí)行邏輯鏈?zhǔn)酵评�。此外，為了增�?qiáng)魯棒性，本工作還加入了補(bǔ)充性的“自我反思”和“自由格式”任務(wù)，提供關(guān)于錯(cuò)誤校正和自主規(guī)劃的監(jiān)督。關(guān)于數(shù)據(jù)集的完整統(tǒng)計(jì)信息和任務(wù)定義，請(qǐng)參閱附錄 C。

實(shí)驗(yàn)

Video-o3在視頻問(wèn)答任務(wù)上與現(xiàn)有方法進(jìn)行了比較，如下表1所示。Video-o3在長(zhǎng)視頻理解基準(zhǔn)測(cè)試中顯著優(yōu)于現(xiàn)有方法，并在多個(gè)視頻推理基準(zhǔn)測(cè)試中表現(xiàn)出色。具體來(lái)說(shuō)，Video-o3的RL-only變體在VideoMME上達(dá)到了66.1%的準(zhǔn)確率，超過(guò)了領(lǐng)先的競(jìng)爭(zhēng)對(duì)手VideoZoomer (65.2%)。在SFT冷啟動(dòng)初始化后，性能進(jìn)一步提升至66.5%。值得注意的是，Video-o3在需要精確觀察局部細(xì)節(jié)的基準(zhǔn)測(cè)試中表現(xiàn)出卓越的能力，例如MLVU、LVBench和LongVideoBench。即使沒有SFT，經(jīng)過(guò)RL訓(xùn)練的模型也以顯著優(yōu)勢(shì)優(yōu)于現(xiàn)有的原生工具使用方法，分別獲得了71.9%、47.5%和59.3%的準(zhǔn)確率。SFT的集成進(jìn)一步鞏固了這一優(yōu)勢(shì)，證明了Video-o3強(qiáng)大的長(zhǎng)上下文感知能力。

在視頻推理方面，Video-o3在復(fù)雜推理領(lǐng)域表現(xiàn)出卓越的熟練度。在旨在評(píng)估多學(xué)科推理的VideoMMMU上，RL-only模型取得了50.0%的可喜成績(jī)，SFT初始化后進(jìn)一步提高到51.7%。該模型的能力在Video-Holmes上尤為突出，這是一個(gè)需要復(fù)雜多跳線索推理的數(shù)據(jù)集。在這里，即使是RL-only基線也達(dá)到了穩(wěn)健的46.1%，而SFT增強(qiáng)型變體將其改進(jìn)為46.5%。這些結(jié)果強(qiáng)調(diào)了Video-o3在解耦和推導(dǎo)復(fù)雜多跳視覺證據(jù)方面的有效性。

除了通用問(wèn)答外，本工作還在時(shí)間定位方面評(píng)估了Video-o3的能力。如下表2所示，在Charades-STA基準(zhǔn)測(cè)試中，LongVT的mIoU為27.2，甚至低于基線Qwen2.5-VL (mIoU: 43.6)。相比之下，Video-o3表現(xiàn)出強(qiáng)大的性能，mIoU為60.7。這一結(jié)果證實(shí)了本工作方法在精確定位關(guān)鍵視頻片段方面的準(zhǔn)確性，這是一項(xiàng)有助于實(shí)現(xiàn)高效、高精度多輪線索定位和聯(lián)合推理的關(guān)鍵元能力。

下表3展示了任務(wù)解耦注意力掩蔽 (TDAM) 關(guān)鍵組件的消融研究結(jié)果。結(jié)果表明，完全移除注意力掩蔽機(jī)制（表示為Baseline）會(huì)導(dǎo)致長(zhǎng)視頻理解和推理任務(wù)的整體性能下降。此外，僅部分應(yīng)用答案掩蔽或接地掩蔽時(shí)，模型的性能仍無(wú)法達(dá)到完整掩蔽策略所實(shí)現(xiàn)的水平。這表明TDAM有效地分離了線索定位和答案推理任務(wù)，防止了不同任務(wù)之間的干擾，使模型能夠更有效地收斂到“多輪線索尋找+多跳答案推理”的預(yù)期模式。

下表4詳細(xì)介紹了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì) (VTGR) 中每個(gè)組件的影響。移除獎(jiǎng)勵(lì)乘數(shù)會(huì)導(dǎo)致統(tǒng)一獎(jiǎng)勵(lì)退化為基本的正確性和格式信號(hào)，這無(wú)法在早期階段激發(fā)工具使用行為，導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定且難以收斂。如果沒有混合線索分?jǐn)?shù)，框架將失去對(duì)工具調(diào)用過(guò)程的關(guān)鍵約束，無(wú)法引導(dǎo)模型走向高效的推理軌跡。此外，缺乏回合衰減因子會(huì)導(dǎo)致推理回合的無(wú)限制擴(kuò)展，這通常會(huì)導(dǎo)致軌跡長(zhǎng)度違反推理時(shí)間限制，從而導(dǎo)致模型無(wú)法提供最終響應(yīng)。這些結(jié)果表明VTGR對(duì)于規(guī)范推理過(guò)程至關(guān)重要，它鼓勵(lì)探索精確的線索片段，同時(shí)抑制多余的交互，最終保證了多跳推理的準(zhǔn)確性和效率。

為了量化多跳推理對(duì)模型性能的貢獻(xiàn)，本工作對(duì)最大交互回合數(shù)進(jìn)行了消融研究，如下表5所示。通過(guò)將上限限制為2、4和8回合，模擬了從粗略檢查到全面調(diào)查的場(chǎng)景。經(jīng)驗(yàn)證據(jù)表明，在所有基準(zhǔn)測(cè)試中，交互深度與推理準(zhǔn)確性之間存在持續(xù)的正相關(guān)關(guān)系。這種趨勢(shì)在需要細(xì)粒度檢索和復(fù)雜邏輯的數(shù)據(jù)集（例如MLVU和VideoMMMU）中最為明顯。這種提升凸顯了復(fù)雜的長(zhǎng)視頻查詢通常超出淺層推理能力。在8回合時(shí)的持續(xù)改進(jìn)驗(yàn)證了Video-o3的核心前提：原生交錯(cuò)工具調(diào)用范式使模型能夠?qū)?fù)雜的查詢分解為可管理的子目標(biāo)。Video-o3利用擴(kuò)展的預(yù)算迭代地解決歧義，通過(guò)穩(wěn)健的多跳推理鏈有效地將不確定的初始假設(shè)轉(zhuǎn)化為經(jīng)過(guò)驗(yàn)證的結(jié)論，而不是屈服于上下文漂移。

結(jié)論

Video-o3，這是一個(gè)賦予多模態(tài)大語(yǔ)言模型（MLLM）原生交錯(cuò)工具調(diào)用能力的框架，用于長(zhǎng)視頻理解。為了實(shí)現(xiàn)穩(wěn)健的端到端訓(xùn)練，引入了任務(wù)解耦注意力掩蔽機(jī)制，以解決異構(gòu)上下文中的注意力分散問(wèn)題，并在Supervised Fine-Tuning (SFT) 階段實(shí)現(xiàn)高效的解耦專家訓(xùn)練。此外，還設(shè)計(jì)了可驗(yàn)證軌跡引導(dǎo)獎(jiǎng)勵(lì)機(jī)制，它結(jié)合了中間線索準(zhǔn)確性和回合衰減因子，從而在強(qiáng)化學(xué)習(xí) (RL) 階段平衡了線索探索和推理效率。為了支持大規(guī)模訓(xùn)練，本文進(jìn)一步開發(fā)了一個(gè)數(shù)據(jù)合成流程，并構(gòu)建了包含173K條高質(zhì)量工具交互軌跡的Seeker-173K數(shù)據(jù)集，以實(shí)現(xiàn)有效的監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。通過(guò)對(duì)MLVU和Video-Holmes等多個(gè)長(zhǎng)視頻理解和推理基準(zhǔn)測(cè)試的廣泛實(shí)驗(yàn)，Video-o3的性能顯著優(yōu)于現(xiàn)有最先進(jìn)的方法，證實(shí)了其強(qiáng)大的多跳證據(jù)尋找和推理能力，并驗(yàn)證了原生工具調(diào)用在長(zhǎng)視頻場(chǎng)景中的有效性。

參考文獻(xiàn)

[1] Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning.

原文標(biāo)題 : 視頻理解大模型覺醒！Video-o3發(fā)布：像偵探一樣主動(dòng)搜尋關(guān)鍵幀，登頂Video-Holmes！

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网