訂閱
糾錯
加入自媒體

頂刊TPAMI 2025!一個模型搞定所有!多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

2025-11-10 16:40
AI生成未來
關注

作者:Yaozong Zheng等

解讀:AI生成未來

亮點直擊

1.為視覺跟蹤領域提供了首個通用的視頻級模態(tài)感知跟蹤模型UM-ODTrack 僅需訓練一次,即可使用相同的架構和參數實現多任務推理,包括 RGB-T/D/E 跟蹤任務。

2.對于視頻級關聯(lián),引入了兩種時序令牌傳播注意力機制,將目標的判別性特征壓縮到一個令牌序列中。該令牌序列作為提示來指導未來幀的推理,從而避免了復雜的在線更新策略。

3.對于多模態(tài)感知,提出了兩種新穎的門控感知器,能夠自適應地學習跨模態(tài)的潛在表示,有助于我們模型的多任務統(tǒng)一訓練和推理。圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對匹配的離線圖像級跟蹤方法。(b) 基于視頻序列采樣和時序標記傳播的在線視頻級跟蹤方法。(c) 基于單次訓練和單任務推理(即一個模型對一個任務,一對一)的多模態(tài)跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓練和多任務推理(即一個模型對多個任務,一對多)的通用模態(tài)感知跟蹤模型。

圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對匹配的離線圖像級跟蹤方法。(b) 基于視頻序列采樣和時序標記傳播的在線視頻級跟蹤方法。(c) 基于單次訓練和單任務推理(即一個模型對一個任務,一對一)的多模態(tài)跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓練和多任務推理(即一個模型對多個任務,一對多)的通用模態(tài)感知跟蹤模型。

總結速覽

解決的問題

1.采樣稀疏性: 傳統(tǒng)跟蹤器主要采用“圖像對”(一個參考幀,一個搜索幀)的稀疏采樣策略,無法充分利用視頻中豐富的時序上下文信息,難以準確分析目標的動態(tài)運動狀態(tài)。

2.關聯(lián)局限性: 傳統(tǒng)的特征匹配/融合方法側重于目標的外觀相似性,缺乏連續(xù)、密集的跨幀關聯(lián),F有方法即使引入多幀,其時空關系也僅限于選定的幀范圍內,未能實現視頻級別的信息關聯(lián)。

3.模型專一性: 現有的多模態(tài)跟蹤方法普遍采用“一個模型對應一個任務”(一對一)的學習范式。這導致需要為不同模態(tài)組合(如RGB-T, RGB-D)訓練和維護多個獨立模型,訓練負擔重,且模型間缺乏兼容性和泛化能力。

提出的方案

提出了 UM-ODTrack 的通用視頻級別多模態(tài)感知跟蹤模型,其核心創(chuàng)新點包括:

1.視頻級別采樣: 將模型輸入從“圖像對”擴展到“視頻序列”級別,使模型能夠從更全局的視角理解視頻內容。

2.在線密集時序令牌學習: 將目標跟蹤重新定義為令牌序列傳播任務,設計了兩種簡單有效的在線密集時序令牌關聯(lián)機制,以自回歸的方式在視頻流中傳播目標的外觀和運動軌跡信息。

3.模態(tài)可擴展感知: 設計了一種通用的模態(tài)感知跟蹤流程,通過兩個新穎的門控感知器,利用門控注意力機制自適應學習跨模態(tài)表征。

一次性訓練范式: 采用一次性訓練方案,將學習到的多種模態(tài)的潛在表征壓縮到同一套模型參數中,實現一個模型支持多種跟蹤任務(RGB, RGB-T, RGB-D, RGB-E)的推理。

應用的技術

1.視頻序列建模: 將視頻序列視為連續(xù)句子,借鑒語言建模思想進行上下文理解。

2.時序令牌關聯(lián)注意力機制: 提出了串聯(lián)時序令牌注意力分離時序令牌注意力兩種機制,用于在線傳播和關聯(lián)時序信息。

3.門控注意力機制: 在條件門控感知器門控模態(tài)可擴展感知器中應用,以自適應地融合和學習跨模態(tài)特征。

4.一次性/統(tǒng)一多任務學習: 通過一次性訓練,使單一模型學習共享的視覺-語義特征空間,同時尊重不同任務的異質性,實現多任務推理。

達到的效果

1.性能提升: 在七個可見光跟蹤基準和五個多模態(tài)跟蹤基準上進行了大量實驗,結果表明UM-ODTrack達到了最新的SOTA性能。

2.信息利用優(yōu)化: 提純后的令牌序列可作為后續(xù)視頻幀推理的時序提示,利用過去信息指導未來推理,實現了信息的有效傳遞和利用。

3.模型效率與泛化性: 一次性訓練方案不僅減輕了訓練負擔,還通過共享參數和跨任務學習提升了模型的表征能力,實現了從“一對一”到“一對多”的范式轉變,使模型更具通用性和靈活性。

方法

A. 架構設計

UM-ODTrack,通用的視頻級模態(tài)感知框架它支持各種跟蹤任務,包括 RGB、RGB+熱成像、RGB+深度和 RGB+事件跟蹤。

下圖2和圖3是用于視頻級多模態(tài)跟蹤的 UM-ODTrack 框架的概覽。將整個視頻建模為一個連續(xù)序列,并以自回歸的方式逐幀解碼目標實例的定位。首先,提出了一種新穎的視頻序列采樣策略,專門設計用于滿足視頻級模型的輸入要求(原則1:視頻級采樣)。然后,提出了一種新穎的模態(tài)標記器,以共享編碼的方式對不同的模態(tài)源進行標記化。隨后,為了捕獲視頻序列中目標實例的時空軌跡信息,我們引入了兩種簡單而有效的時序令牌關聯(lián)注意力機制(原則2:視頻級關聯(lián))。此外,引入了兩個強大的門控感知器來自適應地學習跨模態(tài)的通用視覺表示,從而提高模型在不同跟蹤場景下的泛化能力(原則3:模態(tài)可擴展)。

基于上述建模技術,將獲得一個通用的模態(tài)感知跟蹤模型,該模型可以使用相同的模型架構和參數同時推理多個子跟蹤任務。以下各節(jié)將給出詳細描述。

B. 視頻級多模態(tài)跟蹤公式化

本文的重點在于構建一個通用的視頻級多模態(tài)跟蹤框架。為了全面理解 UM-ODTrack 框架,有必要描述視頻級多模態(tài)跟蹤的概念。 首先,回顧一下先前主流的圖像對匹配跟蹤方法。給定一對視頻幀,即一個參考幀  和一個搜索幀 ,主流視覺跟蹤器  被公式化為

其中  表示當前搜索幀的預測邊界框坐標。如果  是傳統(tǒng)的卷積孿生跟蹤器,它會經歷三個階段,即特征提取、特征融合和邊界框預測。而如果  是transformer  跟蹤器,它僅包含一個骨干網絡和一個預測頭網絡,其中骨干網絡集成了特征提取和融合的過程。

一個transformer跟蹤器接收一系列不重疊的圖像塊(每個圖像塊的分辨率為 )作為輸入。這意味著一個二維的參考-搜索圖像對需要通過一個塊嵌入層來生成多個一維圖像令牌序列 ,其中  是令牌維度,,且 。然后,這些一維圖像令牌被連接起來并加載到一個  層的transformer編碼器中,進行特征提取和關系建模。每個transformer層  包含一個多頭注意力機制和一個多層感知機。這里,我們將第  個transformer層的前向過程公式化如下:

其中  表示由第  個transformer層生成的參考-搜索圖像對的拼接令牌序列,而  表示當前第  個transformer層生成的令牌序列。

使用上述建模方法,我們可以構建一個簡潔優(yōu)雅的跟蹤器來實現逐幀跟蹤。然而,這種建模方法有兩個明顯的缺點:

1.所構建的跟蹤器僅專注于幀內目標匹配,缺乏建立跨幀關聯(lián)的能力,而這種能力對于跨視頻流跟蹤對象是必需的。

2.所構建的跟蹤器僅限于單模態(tài)跟蹤場景,由于領域特定知識的偏差,缺乏快速擴展到多模態(tài)跟蹤的能力。因此,這些限制阻礙了視頻級多模態(tài)跟蹤算法的研究。

在這項工作中,旨在緩解這些挑戰(zhàn),并為通用視頻級模態(tài)感知跟蹤算法提出一種新的設計范式。首先,我們將跟蹤框架的輸入從圖像對級別擴展到視頻級別以進行時序建模。然后,引入一個時序令牌序列 ,旨在傳播視頻序列中目標實例的外觀、時空位置和軌跡信息。形式上,我們將視頻級跟蹤公式化如下:

其中  表示長度為  的 RGB 參考幀序列,而  表示長度為  的 RGB 搜索幀序列。通過這樣的設置,構建了一個視頻級跟蹤框架,它接收任意長度的視頻片段來建模目標對象的時空軌跡關系。

此外,為了提高視頻級跟蹤器的通用模態(tài)感知能力,我們將其擴展到多模態(tài)跟蹤領域。首先,將輸入從單模態(tài)范圍擴展到多模態(tài)范圍。接著,使用一個包含 RGB 編碼器和 D/T/E 編碼器的共享通用模態(tài)編碼器,分別用于提取和融合 RGB 視頻片段和輔助視頻片段。隨后,設計了兩個新穎的門控感知器來學習跨模態(tài)的通用潛在表示。定義如下:

其中  表示來自輔助模態(tài)的長度為  的參考幀序列,而  表示來自輔助模態(tài)的長度為  的搜索幀序列。 是來自輔助模態(tài)的時序令牌。我們將在下一節(jié)更詳細地描述所提出的核心模塊。

C. 視頻序列采樣策略

大多數現有跟蹤器通常在一個短時間間隔內(例如50、100或200幀間隔)對單模態(tài)圖像對進行采樣。然而,這種采樣方法帶來了一個潛在的限制,因為這些跟蹤器無法捕捉被跟蹤目標的長期運動變化,從而限制了跟蹤算法在長期場景中的魯棒性。同時,它們無法從多個模態(tài)的視角感知目標的實時狀態(tài)。 為了從長期視頻序列中獲取更豐富的目標實例的多模態(tài)時空軌跡信息,我們偏離了傳統(tǒng)的短期圖像對采樣方法,并提出了一種新的視頻序列采樣策略。具體來說,在訓練階段,我們建立一個更大的采樣間隔,并在該間隔內隨機提取多個視頻幀,以形成任何模態(tài)和任何長度的視頻片段(, )。盡管這種采樣方法可能看起來簡單,但它使我們能夠近似整個視頻序列的內容。這對于視頻級多模態(tài)跟蹤建模至關重要。

D. 模態(tài)標記器

直觀地說,考慮到來自不同模態(tài)(即深度、熱紅外和事件)的輸入幀的可變性,傳統(tǒng)方法是為每種模態(tài)設計單獨的標記器。這使得不同的輸入幀能夠被轉換為具有相同序列格式的令牌向量。相反,考慮到不同模態(tài)間可能存在共享的語義信息,我們將深度、熱紅外和事件數據視為統(tǒng)一的視覺表示。設計了一個共享的模態(tài)標記器,以將來自不同模態(tài)的數據統(tǒng)一轉換為相同的一維序列。對于包含深度、熱紅外和事件等多種模態(tài)信息的視覺輸入,我們采用單個二維卷積層作為統(tǒng)一標記器。隨后,利用一個基于transformer的通用模態(tài)編碼器來處理這些令牌。

E. 門控感知器

由于基礎視覺跟蹤器的模態(tài)感知能力有限,一旦在RGB跟蹤基準上進行訓練,它就無法輕易適應復雜的多模態(tài)跟蹤場景。因此,我們設計了兩個簡單而有效的模塊,即條件門控和門控模態(tài)可擴展感知器,如圖3所示,以自適應地學習通用的跨模態(tài)表示。

條件門控。為了在共享的通用模態(tài)編碼器中實現多模態(tài)表示學習,我們在每個編碼器層之間以殘差方式添加了條件門控模塊。在條件門控模塊中,可見光特征和相應的輔助特征(即深度、熱和事件)沿著通道維度進行跨模態(tài)對齊,以補充來自其他模態(tài)的豐富細節(jié)。然后,對齊后的多模態(tài)表示由條件門控模塊進行門控,以促進模態(tài)間的交叉學習。

條件門控模塊可以規(guī)范化為以下方程:

其中和  表示在特定模態(tài)下從第t個視頻幀提取的可見光模態(tài)特征和輔助模態(tài)特征。 是一個用于縮放維度的嵌入層。 是一個門控網絡。它根據模態(tài)源之間的質量動態(tài)控制多模態(tài)跟蹤的表示學習,該質量通過一個兩層感知機和一個門控激活函數進行評估。 代表條件門控模塊的輸出特征。值得注意的是,最后一個條件門控網絡層的學習參數被初始化為零,使其輸出能夠與基礎視覺跟蹤器的輸出相匹配,從而有助于提高訓練穩(wěn)定性。

門控模態(tài)可擴展感知器。在執(zhí)行通用模態(tài)編碼器之后,可以獲得一個可見光特征 ,一個輔助特征 ,一個可見光時序令牌序列 ,以及一個輔助模態(tài)時序令牌序列 。來自不同模態(tài)的兩個時序令牌,其特征空間分布反映了同一目標對象跨多個模態(tài)源的外觀和運動軌跡信息。因此,我們設計了一種基于門控注意力機制的新型模態(tài)可擴展感知器,以進一步增強對多模態(tài)跟蹤場景的感知。具體來說,學習到的多模態(tài)表示與兩個時序模態(tài)令牌進行交叉注意力計算,以從多個視圖構建通用的模態(tài)依賴關系。這種多模態(tài)關系可以表示為以下公式:

其中  表示一個多模態(tài)交叉注意力層,以前一個輸入作為查詢,后一個作為鍵和值。 表示一個多模態(tài)前饋網絡層。 是 GMP 模塊中 UM-Attn 操作的輸出特征。 是 GMP 模塊中門控操作的輸出特征。 代表 GMP 模塊的輸出特征。通過采用這種新穎的門控注意力機制,我們的 UM-ODTrack 能夠自適應地將多模態(tài)信息聚合到一個共享的視覺-語義特征空間中,有效提高了我們跟蹤器的模態(tài)感知能力,從而首次實現了真正通用的模態(tài)跟蹤。

F. 時序令牌關聯(lián)注意力機制

不采用復雜的視頻transformer作為編碼視頻內容的基礎框架,而是從一個新的視角進行設計,利用簡單的 2D transformer架構,即 2D ViT。 為了構建一個優(yōu)雅的實例級幀間關聯(lián)機制,必須擴展原始的 2D 注意力操作,以提取和整合視頻級特征。在我們的方法中,我們基于壓縮-傳播的概念設計了兩種時序令牌注意力機制,即拼接令牌注意力機制和分離令牌注意力機制,如下圖4(左)所示。其核心設計在于向注意力操作中注入額外信息,例如更多的視頻序列內容和時序令牌向量,使它們能夠提取更豐富的目標實例的時空軌跡信息。

在圖4(a)中,原始的注意力操作通常采用圖像對作為輸入,其中建模它們關系的過程可以表示為 。在這種范式下,跟蹤器只能在每個圖像對內部進行獨立交互,建立有限的時序相關性。在圖4(b)中,所提出的拼接令牌注意力機制將輸入擴展到前述的視頻序列,從而能夠對跨幀的時空關系進行密集建模。受語言通過拼接形成上下文特性的啟發(fā),我們同樣應用拼接操作來為視頻序列建立上下文。其公式可以表示為:

其中  是第  個視頻幀的時序令牌序列。 表示令牌間的拼接操作。,  和  是拼接后特征令牌的時空線性投影。

另一方面,當執(zhí)行多模態(tài)跟蹤任務時,當前的時序令牌關聯(lián)注意力機制也同樣適用。具體來說,與可見光時序令牌類似,多模態(tài)時序令牌  是一個用零初始化的向量,用于在多模態(tài)跟蹤場景中提取目標實例的外觀和時空定位信息。公式表示如下:

值得注意的是,本文為每個視頻幀引入了一個時序令牌,旨在存儲采樣視頻序列的目標軌跡信息。換句話說,我們將目標的當前時空軌跡信息壓縮到一個令牌向量中,該向量用于傳播到后續(xù)視頻幀。

一旦目標信息被時序令牌提取,以自回歸的方式將令牌向量從第  幀傳播到第  幀,如圖4(右)所示。首先,將第  幀的時序令牌  添加到第  幀的空令牌  上,得到更新后的第  幀的內容令牌 ,隨后將其作為輸入傳播到后續(xù)幀。形式上,可見光和多模態(tài)跟蹤的傳播過程為:

值得注意的是,我們?yōu)槊總視頻幀引入了一個時序令牌,旨在存儲采樣視頻序列的目標軌跡信息。換句話說,我們將目標的當前時空軌跡信息壓縮到一個令牌向量中,該向量用于傳播到后續(xù)視頻幀。

一旦目標信息被時序令牌提取,我們以自回歸的方式將令牌向量從第  幀傳播到第  幀,如圖4(右)所示。首先,將第  幀的時序令牌  添加到第  幀的空令牌  上,得到更新后的第  幀的內容令牌 ,隨后將其作為輸入傳播到后續(xù)幀。形式上,可見光和多模態(tài)跟蹤的傳播過程為:

其中  是第  幀輔助模態(tài)視頻幀的時序令牌序列。 是第  幀輔助模態(tài)視頻幀的空令牌。

在這種新的設計范式中,可以使用時序令牌作為推斷下一幀的提示,利用過去的信息來指導未來的推斷。此外,我們的模型通過在線令牌傳播隱式地傳播目標實例的外觀、定位和軌跡信息。這顯著提高了視頻級框架的跟蹤性能。

另一方面,如圖4(c)所示,所提出的分離令牌注意力機制將注意力操作分解為三個子過程:參考幀之間的自信息聚合、參考幀與搜索幀之間的跨信息聚合,以及時序令牌與視頻序列之間的跨信息聚合。這種分解在一定程度上提高了模型的計算效率,同時令牌關聯(lián)遵循上述流程。

與在線更新的討論:大多數先前的跟蹤算法結合在線更新方法來訓練時空跟蹤模型,例如添加額外的得分質量分支或 IoU 預測分支。它們通常需要復雜的優(yōu)化過程和更新決策規(guī)則。與這些方法相比,我們通過利用令牌序列的在線迭代傳播,避免了復雜的在線更新策略,使我們能夠實現更高效的模型表示和計算。

G. 一次性訓練與通用推理

預測頭。對于預測頭網絡的設計,采用傳統(tǒng)的分類頭和邊界框回歸頭來實現期望的結果。分別通過三個子卷積網絡獲得預測的分類得分圖 、邊界框尺寸  和偏移量尺寸 。

一次性訓練。如果一個單一的神經網絡模型能夠同時跨多個任務進行推理,它將呈現出顯著的優(yōu)勢。這不僅減少了需要為每個領域手工設計具有適當歸納偏置的模型,還增加了可用訓練數據的數量和多樣性。

對于 RGB 跟蹤任務,本文使用包含 LaSOT, GOT-10k, TrackingNet 和 COCO 的訓練數據集來訓練我們的基礎視頻級跟蹤模型。在輸入數據方面,我們將包含三個 192 × 192 像素參考幀和兩個 384 × 384 像素搜索幀的視頻序列作為模型的輸入。

對于多模態(tài)跟蹤任務,與在單個下游數據集上獨立訓練的跟蹤算法,如[62], [64], [66], [74]相比,我們的目標是同時聯(lián)合訓練多個跟蹤任務(即 RGB-T 跟蹤、RGB-D 跟蹤和 RGB-E 跟蹤)。我們在聯(lián)合的熱紅外(即 LasHeR,對齊了 RGB 和紅外數據)、深度(即 DepthTrack,對齊了 RGB 和深度數據)和事件(即 VisEvent,對齊了 RGB 和事件數據)數據集上,以一次性訓練的方式訓練我們的通用模態(tài)感知跟蹤模型,并使用相同的損失函數監(jiān)督其預測的邊界框。

具體來說,采用焦點損失作為分類損失 ,并采用 L1 損失和 GIoU 損失作為回歸損失?倱p失  可以公式化為:

其中  和  是正則化參數。 由于我們使用視頻片段進行建模,任務損失是針對每個視頻幀獨立計算的,并且最終損失是在搜索幀的長度上取平均值。

通用推理。 算法1總結了我們模型的推理過程。對于 RGB 跟蹤,我們遵循與其他transformer跟蹤器相同的跟蹤流程。得益于我們的一次性訓練方案和門控模態(tài)可擴展感知器模塊,對于 RGB-D、RGB-T 和 RGB-E 跟蹤任務,我們使用同一套模型參數無縫地執(zhí)行任何跟蹤任務的推理,而無需額外的多次微調技術。在輸入數據方面,為了與訓練設置保持一致,我們在推理階段將三個等間隔的參考幀納入我們的跟蹤器。同時,搜索幀和時序令牌向量被逐幀輸入。

實驗A. 實現細節(jié)

本文使用 ViT-Base 模型作為視覺編碼器,其參數使用 MAE 預訓練參數進行初始化。采用 AdamW 來優(yōu)化網絡參數,骨干網絡的初始學習率為 ,其余部分為 ,并設置權重衰減為 。在每個周期中隨機采樣 60,000 個圖像對。對于 RGB 跟蹤任務,我們設置訓練周期為 300 個周期。學習率在 240 個周期后下降為原來的十分之一。對于多模態(tài)跟蹤任務,我們設置訓練周期為 15 個周期。學習率在 10 個周期后下降為原來的十分之一。該模型在配備兩塊 80GB Tesla A100 GPU 的服務器上運行,并設置批處理大小為 8。

B. 與 SOTA 的比較

在七個可見光基準(包括 LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020, TNL2K 和 OTB100)和五個多模態(tài)跟蹤基準(包括 LasHeR, RGBT234, DepthTrack, VOT-RGBD2022 和 VisEvent)上將我們的 ODTrack 和 UM-ODTrack 與最先進的跟蹤器進行了比較。我們的 ODTrack 和 UM-ODTrack 在這些數據集上展示了卓越的性能。

GOT10K。GOT10K 是一個大規(guī)模跟蹤數據集,包含超過 10,000 個視頻序列。GOT10K 基準提出了一個協(xié)議,要求跟蹤器僅使用其訓練集進行訓練。我們遵循該協(xié)議來訓練我們的框架。結果記錄在表 I 中。在先前的方法中,未采用視頻級采樣策略的 ARTrack384 在 AO(平均重疊率)、SR0.5 和 SR0.75(閾值為 0.5 和 0.75 時的成功率)指標上分別達到了 SOTA 性能。受益于提出的新視頻級采樣策略,我們的 ODTrack384 取得了新的最先進水平,在 AO、SR0.5 和 SR0.75 指標上分別達到了 77.0%、87.9% 和 75.1%。結果表明,我們 ODTrack 的一個優(yōu)勢來自于旨在釋放模型潛力的視頻級采樣策略。

LaSOT。LaSOT 是一個大規(guī)模長期跟蹤基準,包含 1120 個訓練序列和 280 個測試序列。如表 I 所示,可以看到我們的 ODTrack384 通過有趣的時序令牌注意力機制取得了良好的跟蹤結果。與最新的 ARTrack 性能相比,我們的 ODTrack384 在 AUC、P Norm 和 P 分數方面分別實現了 0.6%、1.5% 和 1.5% 的提升。結果表明,跟蹤器學習到的具有目標關聯(lián)依賴關系的時空特征可以提供可靠的目標定位。此外,由于我們的時序令牌旨在關聯(lián)目標實例以提高在多種跟蹤挑戰(zhàn)(即快速運動、背景干擾、視角變化和尺度變化等)下的魯棒性和準確性。因此,如圖 5 所示,展示了 LaSOT 數據集的屬性評估,以說明我們的令牌關聯(lián)機制如何幫助跟蹤器學習關于目標實例的時空軌跡信息,顯著增強長期跟蹤場景中的目標定位。

TrackingNet。TrackingNet 是一個大規(guī)模短期數據集,提供了一個包含 511 個視頻序列的測試集。如下表 I 報告,通過實現目標實例的跨幀關聯(lián),ODTrack384 取得了 85.1% 的成功分數(AUC)、90.1% 的歸一化精度分數(P Norm)和 84.9% 的精度分數(P),分別優(yōu)于先前沒有令牌關聯(lián)的高性能跟蹤器 SeqTrack 1.2%、1.3% 和 1.3%。同時,與最近沒有時序令牌關聯(lián)的視頻級跟蹤器 VideoTrack 相比,ODTrack 在 AUC、P Norm 和 P 指標上分別優(yōu)于 1.3%、1.4% 和 1.8%。這表明我們的時序令牌可以有效地跨搜索幀關聯(lián)目標對象,并且這種新穎的關聯(lián)方式可以增強我們 ODTrack 在多個跟蹤場景中的泛化能力。

LaSOText。LaSOText 是 LaSOT 的擴展版本,包含 150 個長期視頻序列。如表 I 報告,我們的方法取得了良好的跟蹤結果,優(yōu)于大多數比較的跟蹤器。例如,我們的跟蹤器取得了 52.4% 的 AUC、63.9% 的 P Norm 分數和 60.1% 的 P 分數,分別優(yōu)于 ARTrack 0.5%、1.9% 和 1.6%。此外,我們的 ODTrack 在成功分數上也優(yōu)于基于圖像對匹配的先進跟蹤器 OSTrack 1.9%。結果符合我們的預期,即視頻級建模在復雜的長期跟蹤場景中具有更穩(wěn)定的目標定位能力。

VOT2020。VOT2020 包含 60 個具有挑戰(zhàn)性的序列,并使用二進制分割掩碼作為真實標簽。我們使用 Alpha-Refine作為 ODTrack 的后處理網絡來預測分割掩碼。期望平均重疊率(EAO)指標用于評估所提出的跟蹤器和其他先進跟蹤器。如表 III 所示,我們的 ODTrack384 和 -L384 在掩碼評估上取得了最佳結果,EAO 分別為 58.1% 和 60.5%。在 EAO 指標上,與未探索時序關系的跟蹤器(即 SBT  和 Ocean+)相比,ODTrack 分別優(yōu)于 6.6% 和 9%。這些結果表明,通過注入時序令牌注意力,我們的 ODTrack 在復雜跟蹤場景中具有魯棒性。

TNL2K 和 OTB100。在 TNL2K 和 OTB100 基準上評估了我們的跟蹤器。它們分別包含 700 和 100 個視頻序列。表 II 中的結果顯示,ODTrack384 和 -L384 在 TNL2K 和 OTB100 基準上取得了最佳性能。例如,我們的 ODTrack384 在 TNL2K 和 OTB100 數據集上分別獲得了 60.9% 和 72.3% 的 AUC 分數。在 TNL2K 數據集上,與 ARTrack 相比,ODTrack 優(yōu)于其 1.1%。同時,與非自回歸跟蹤器 Mixformer 相比,我們的 ODTrack 在 OTB100 數據集上的 AUC 分數高出 2.3%?梢杂^察到,通過采用有趣的自回歸建模方法來捕獲時序上下文,我們的 ODTrack 能夠降低模型復雜性并提高性能。

DepthTrack。DepthTrack包含 150 個訓練和 50 個測試 RGB-D 長期視頻序列。如下表 IV 所示,我們在其上將我們的模型與現有的 SOTA RGB-D 跟蹤器進行了比較。在相同的圖像分辨率設置下,我們的 UM-ODTrack256 在跟蹤精度(Pr)、召回率(Re)和 F-score 上分別優(yōu)于 ViPT 1.1%、2.6% 和 1.8%。此外,由于提出的高效門控注意力機制,我們的 UM-ODTrack384 在 RGB-D 跟蹤領域取得了 SOTA 性能。值得注意的是,當輸入尺寸從 256 增加到 384 時,UM-ODTrack 在性能上取得了大幅提升。這表明我們結合大輸入分辨率的時序關聯(lián)方法在多模態(tài)長期跟蹤場景中尤為重要。

VOT-RGBD2022。VOT-RGBD2022是一個短期跟蹤數據集,包含 127 個 RGB-D 視頻序列。如下表 V 報告,與大多數其他跟蹤算法相比,我們的跟蹤器取得了新的最先進結果。具體來說,我們的 UM-ODTrack256 在 EAO、準確性和魯棒性指標上分別獲得了 78.0%、81.4% 和 94.8% 的分數。與最新的統(tǒng)一跟蹤器 Un-Track 相比,我們的 UM-ODTrack256 在期望平均重疊率(EAO)和魯棒性分數上分別實現了 5.9% 和 7.9% 的提升。這表明我們的統(tǒng)一建模技術對于通用特征學習更有效,并且可以為每種模態(tài)(即深度模態(tài))提供合適且穩(wěn)定的特征空間。

LasHeR。LasHeR  是一個大規(guī)模 RGB-T 跟蹤數據集,包含 245 個短期測試視頻序列。結果報告在下圖 7 中,我們的 UM-ODTrack 取得了令人驚訝的結果,顯著優(yōu)于先前的 SOTA RGB-T 跟蹤算法,在成功圖和精度圖上分別超過第二名 4.5% 和 6.3%。這些結果符合我們的預期,即基于門控注意力機制的特征學習可以自適應地提取和融合不同模態(tài)的特征,以提高多模態(tài)跟蹤性能。同時,為了驗證我們的門控感知器能夠有效解決包括遮擋(NO)、部分遮擋(PO)、完全遮擋(TO)、低光照(LI)、低分辨率(LR)、形變(DEF)、背景干擾(BC)、運動模糊(MB)、熱交叉(TC)、相機移動(CM)、快速運動(FM)、尺度變化(SV)、透明遮擋(HO)、高光照(HI)、突然光照變化(AIV)、相似外觀(SA)、縱橫比變化(ARC)、出視野(OV)和幀丟失(FL)在內的多種挑戰(zhàn),我們展示了 LasHeR 數據集的屬性評估結果。如圖 6 所示,我們的 UM-ODTrack 在每個屬性上都表現良好。因此,可以表明我們帶有門控感知器的視頻級多模態(tài)建模方案能夠有效地統(tǒng)一和融合多模態(tài)特征,從而使我們的跟蹤器能夠很好地解決復雜的跟蹤場景。

RGBT234。RGBT234 包含 234 個 RGB-T 跟蹤視頻,約 116.6K 個圖像對。如下圖6 所示,UM-ODTrack256 在 SR 和 PR 指標上分別獲得了 69.2% 和 91.5% 的分數。與高性能 RGB-T 專家跟蹤器 BAT 相比,我們的方法取得了良好的跟蹤結果,在成功圖和精度圖上分別優(yōu)于 5.1% 和 4.7%。這意味著我們的 GMP 模塊可以有效地聚合來自熱紅外模態(tài)的目標信息,實現魯棒的多模態(tài)跟蹤。

VisEvent。VisEvent 是最大的 RGB-E 跟蹤基準,包含 320 個測試視頻。比較結果如圖 8 所示。我們的 UM-ODTrack384 取得了新的 SOTA 跟蹤結果,成功分數和精度分數分別為 62.4% 和 81.3%?梢钥闯,我們配備門控模態(tài)可擴展感知器(GMP)模塊的 UM-ODTrack 在事件場景中也實現了精確跟蹤。這與我們的直覺一致,即 GMP 模塊可以輕松擴展到不同的模態(tài)跟蹤場景,并有效改善多模態(tài)特征的表示。

C. 消融研究

令牌關聯(lián)的有效性。為了研究等式 11 中令牌關聯(lián)的效果,我們在表 VII 中進行了是否傳播時序令牌的實驗。w/o Token 表示采用視頻級采樣策略但沒有令牌關聯(lián)的實驗。從第二行和第三行可以觀察到,缺少令牌關聯(lián)機制導致 AUC 分數下降 1.2%。這一結果表明令牌關聯(lián)在跨幀目標關聯(lián)中起著至關重要的作用。此外,我們在表 VII 中進行實驗,以驗證視頻級跟蹤框架中提出的兩種令牌關聯(lián)方法的有效性。我們可以觀察到,分離和拼接方法都實現了顯著的性能提升,其中拼接方法顯示出稍好的結果。這證明了兩種注意力機制的有效性。

搜索視頻片段的長度。如下表 VIII 所示,消融了搜索視頻序列長度對跟蹤性能的影響。當視頻片段長度從 2 增加到 3 時,AUC 指標提高了 0.3%。然而,序列長度的持續(xù)增加并未帶來性能提升,表明過長的搜索視頻片段會給模型帶來學習負擔。因此,我們應選擇適當的搜索視頻片段長度。此外,為了評估序列長度對多模態(tài)跟蹤性能的影響,在 LasHeR, DepthTrack和 VisEvent 基準上進行了對比實驗,如表 XVI 所示。視頻序列長度的選擇對于利用時序信息至關重要。當序列長度從 2 增加到 3 時,我們的跟蹤器在 LasHeR, DepthTrack 和 VisEvent 基準上的 SR 和 F-score 分別提高了 0.7%, 0.2% 和 1.6%。這些增益來自于通過多幀信息有效建模目標外觀變化和運動軌跡。然而,當序列長度超過 3 時,由于跨模態(tài)時序噪聲的積累,性能趨于穩(wěn)定或略有下降。這證實了適當選擇的序列長度可以提供互補信息,而過長的序列更可能引入冗余或有噪聲的上下文信號。因此,我們的 UM-ODTrack 采用序列長度 3 作為最佳設置,以在合適的時間跨度內捕獲上下文信息。

采樣范圍。為了驗證采樣范圍對算法性能的影響,在下表 IX 中對視頻幀的采樣范圍進行了實驗。當采樣范圍從 200 擴大到 1200 時,AUC 指標的性能有顯著提高,表明視頻級框架能夠從更大的采樣范圍學習目標軌跡信息。

門控感知器和門控激活函數的有效性。我們進行實驗以驗證在通用模態(tài)感知跟蹤框架下提出的兩個組件,即條件門控和門控模態(tài)可擴展感知器(GMP)的有效性,如下表 X 所示;方法指的是 ODTrack 的雙流版本。通過將條件門控模塊添加到基線中,我們的跟蹤器在三個下游跟蹤數據集上的性能得到了改善。例如,配備條件門控的跟蹤器在 DepthTrack 基準上的 F-score 指標實現了 1.3% 的提升。此外,通過將 GMP 納入我們的模型,其性能得到進一步改善。這證明了我們提出的兩個門控模塊的有效性。此外,為了研究門控激活函數的效果,在表 XIII 中使用了不同的門控激活函數進行實驗。與 ReLU 和 sigmoid 相比,tanh 激活函數表現最佳。這一結果表明,在我們的門控感知器中,tanh 門控函數更適合學習和表示通用的多模態(tài)跟蹤任務,可能提供更好的泛化能力。

條件門控和 GMP 的層數。分別比較了條件門控和 GMP 的層數對模型的影響。實驗結果記錄在表 XI 和表 XII 中。對于條件門控,隨著層數的增加,我們跟蹤器的性能相應提高。這意味著在通用模態(tài)編碼器中集成更多層有助于學習多模態(tài)表示。另一方面,當在 GMP 模塊中使用三層或六層時,我們的 UM-ODTrack 取得了良好的跟蹤結果。為了平衡速度和性能,我們選擇使用三層配置。

多模態(tài)線索的重要性。為了驗證在視覺跟蹤中融合 RGB 幀與其他模態(tài)幀的有效性,我們報告了 UM-ODTrack 上僅使用 RGB 數據和雙模態(tài)數據的跟蹤結果。如表 XIV (#1 和 #5) 所示,當僅使用 RGB 幀時,我們的跟蹤器在三個下游基準上表現出顯著的性能下降。例如,在 LasHeR 數據集中,SR 和 PR 指標分別下降了 6.3% 和 7.2%,表明多模態(tài)線索的注入(或多模態(tài)融合)對于多模態(tài)跟蹤是顯著有效且至關重要的。

共享模態(tài)標記器的重要性。我們比較了共享和非共享標記器對多模態(tài)跟蹤性能的影響。在實驗中,我們使用共享和非共享標記器對多模態(tài)數據進行編碼,并將編碼后的數據輸入跟蹤模型進行訓練和推理。共享標記器是指使用統(tǒng)一的標記器對所有模態(tài)的數據進行編碼,而非共享標記器則涉及對每種模態(tài)使用不同的標記器。如表 XIV (#2 和 #5) 所示,我們發(fā)現共享標記器的跟蹤性能更優(yōu)。這表明共享標記器可以更有效地捕捉多模態(tài)數據之間的相關性,從而提升我們跟蹤器的整體性能。

完全微調 vs. 適配器/提示微調。如圖 12 所示,探索了使用不同訓練策略(例如適配器微調和完全微調)來訓練我們模型的實驗。實驗結果記錄在表 XIV (#3 和 #5) 中。可以觀察到,適配器微調和完全微調策略都取得了良好的性能提升,其中完全微調顯示出稍好的結果。理論上,具有較少學習參數的適配器微調可以節(jié)省更多 GPU 資源。然而,在實踐中,由于其他模型參數在訓練期間保留了梯度,其訓練資源并未顯著減少,這與完全微調方案相當。因此,我們選擇具有更多學習參數的完全微調作為我們的訓練策略。

多任務一次性訓練 vs. 單任務獨立訓練。為了評估多任務統(tǒng)一(一次性)訓練對我們最終模型的好處,我們?yōu)槿齻子跟蹤任務獨立訓練了專家模型,如表 XIV 所示。#4 和 #5 的比較結果表明,我們的一次性訓練方案帶來了顯著的性能提升。例如,僅在 DepthTrack 數據集上訓練的模型達到了 67.8% 的 F-score,而在 DepthTrack, LasHeR 和 VisEvent 上聯(lián)合訓練的模型則達到了 69.3% 的更高 F-score,提升了 1.5%。將此改進歸因于每個模態(tài)跟蹤任務可用訓練數據數量和多樣性的增加,以及設計的門控感知器在聚合多模態(tài)特征方面的有效性。這些因素共同增強了我們統(tǒng)一多模態(tài)跟蹤模型在各種跟蹤場景中的魯棒性和泛化能力。

模態(tài)權重比率。我們進行了一項比較研究,如表 XV 所示,以評估不同模態(tài)權重對模型性能的影響。如結果所示,跟蹤器的變體在不同權重方案下表現一致良好。例如,在權重配置為 depth: infrared: event = 2:1:1 時,我們的模型在 DepthTrack, LasHeR 和 VisEvent 數據集上分別實現了 69.1%, 60.4% 和 61.7% 的 F-score 和 SR 值。這些發(fā)現表明,我們的方法對模態(tài)的具體權重不高度敏感。因此,等權重方案(depth: infrared: event = 1:1:1)可以有效地平衡每個模態(tài)的貢獻,并作為我們模型的一個魯棒的默認配置。

D. 定性分析

速度、FLOPs 和參數量分析。在模型參數量、FLOPs 和推理速度方面進行了對比實驗,如表 XVII 所示。在相同的測試機器(即 2080Ti)上,ODTrack 與最新的跟蹤器 SeqTrack 相比獲得了更快的推理速度。我們的跟蹤器運行速度為 32 fps。

可視化。對于 RGB 跟蹤任務,為了直觀展示我們方法的有效性,特別是在包含相似干擾物的復雜場景中,在 LaSOT 上可視化了ODTrack 和三個先進跟蹤器的跟蹤結果。如圖 9 所示,由于其能夠密集傳播目標的軌跡信息,我們的跟蹤器在這些序列上遠遠優(yōu)于最新的跟蹤器 SeqTrack。

對于多模態(tài)跟蹤任務,我們分別在 LasHeR, DepthTrack 和 VisEvent 數據集上可視化了我們的 UM-ODTrack 和其他 SOTA 跟蹤器的多模態(tài)跟蹤結果,如圖 11 所示。受益于門控感知器對任意模態(tài)的通用感知能力,與其他多模態(tài)跟蹤器相比,我們的 UM-ODTrack 能夠在復雜序列中準確定位目標。同時,我們比較了帶有和不帶門控模態(tài)可擴展感知器(GMP)的特征表示。如圖 13 所示,在沒有 GMP 模塊的情況下,模型缺乏捕捉模態(tài)間相關性的能力,導致學習到的表示常常關注與目標相似的干擾物。相比之下,當配備包含基于注意力的門控機制的 GMP 模塊時,本文的跟蹤器在復雜的多模態(tài)跟蹤場景中有效抑制了此類干擾,使模型能夠更準確地聚焦于目標對象。

此外,可視化了時序令牌注意力操作的注意力圖,如圖 10 所示。我們可以觀察到時序令牌持續(xù)傳播并關注物體的運動軌跡信息,這有助于我們的跟蹤器準確定位目標實例。

結論

本工作探索了一個有趣的視頻級視覺目標跟蹤框架,稱為 ODTrack。將視覺跟蹤重新定義為一個令牌傳播任務,以自回歸的方式密集關聯(lián)跨視頻幀的上下文關系。此外,為了從單模態(tài)感知擴展到多模態(tài)感知,提出了 UM-ODTrack,一個通用的視頻級模態(tài)感知視覺跟蹤框架,通過設計門控注意力機制有效聚合目標實例的多模態(tài)時序信息。具體來說,設計了一種視頻序列采樣策略和兩種時序令牌傳播注意力機制,使得所提出的框架能夠簡化視頻級時空建模并避免復雜的在線更新策略。此外,提出了兩個門控模態(tài)可擴展感知器來聚合來自各種模態(tài)的目標時空信息。最后,本模型可以通過一次性訓練方案,使用同一套模型參數同時推理不同的多模態(tài)跟蹤任務。大量實驗表明,UM-ODTrack 在七個可見光跟蹤和五個多模態(tài)跟蹤基準上取得了優(yōu)異的結果。期望 ODTrack 和 UM-ODTrack 能成為通用視頻級模態(tài)感知跟蹤的強大基線,激發(fā)可見光跟蹤和多模態(tài)跟蹤領域的進一步研究。

參考文獻

[1] Towards Universal Modal Tracking with Online Dense Temporal Token Learning

       原文標題 : 頂刊TPAMI 2025!一個模型搞定所有!多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號