123,123

<big id="16166"><acronym id="16166"><menu id="16166"></menu></acronym></big>

<tt id="16166"></tt>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

頂刊TPAMI 2025！一個模型搞定所有！多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

2025-11-10 16:40

作者：Yaozong Zheng等

解讀：AI生成未來

亮點直擊

1.為視覺跟蹤領(lǐng)域提供了首個通用的視頻級模態(tài)感知跟蹤模型。UM-ODTrack 僅需訓(xùn)練一次，即可使用相同的架構(gòu)和參數(shù)實現(xiàn)多任務(wù)推理，包括 RGB-T/D/E 跟蹤任務(wù)。

2.對于視頻級關(guān)聯(lián)，引入了兩種時序令牌傳播注意力機制，將目標(biāo)的判別性特征壓縮到一個令牌序列中。該令牌序列作為提示來指導(dǎo)未來幀的推理，從而避免了復(fù)雜的在線更新策略。

3.對于多模態(tài)感知，提出了兩種新穎的門控感知器，能夠自適應(yīng)地學(xué)習(xí)跨模態(tài)的潛在表示，有助于我們模型的多任務(wù)統(tǒng)一訓(xùn)練和推理。圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對匹配的離線圖像級跟蹤方法。(b) 基于視頻序列采樣和時序標(biāo)記傳播的在線視頻級跟蹤方法。(c) 基于單次訓(xùn)練和單任務(wù)推理（即一個模型對一個任務(wù)，一對一）的多模態(tài)跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓(xùn)練和多任務(wù)推理（即一個模型對多個任務(wù)，一對多）的通用模態(tài)感知跟蹤模型。

圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對匹配的離線圖像級跟蹤方法。(b) 基于視頻序列采樣和時序標(biāo)記傳播的在線視頻級跟蹤方法。(c) 基于單次訓(xùn)練和單任務(wù)推理（即一個模型對一個任務(wù)，一對一）的多模態(tài)跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓(xùn)練和多任務(wù)推理（即一個模型對多個任務(wù)，一對多）的通用模態(tài)感知跟蹤模型。

總結(jié)速覽

解決的問題

1.采樣稀疏性： 傳統(tǒng)跟蹤器主要采用“圖像對”（一個參考幀，一個搜索幀）的稀疏采樣策略，無法充分利用視頻中豐富的時序上下文信息，難以準(zhǔn)確分析目標(biāo)的動態(tài)運動狀態(tài)。

2.關(guān)聯(lián)局限性： 傳統(tǒng)的特征匹配/融合方法側(cè)重于目標(biāo)的外觀相似性，缺乏連續(xù)、密集的跨幀關(guān)聯(lián)�，F(xiàn)有方法即使引入多幀，其時空關(guān)系也僅限于選定的幀范圍內(nèi)，未能實現(xiàn)視頻級別的信息關(guān)聯(lián)。

3.模型專一性： 現(xiàn)有的多模態(tài)跟蹤方法普遍采用“一個模型對應(yīng)一個任務(wù)”（一對一）的學(xué)習(xí)范式。這導(dǎo)致需要為不同模態(tài)組合（如RGB-T, RGB-D）訓(xùn)練和維護多個獨立模型，訓(xùn)練負(fù)擔(dān)重，且模型間缺乏兼容性和泛化能力。

提出的方案

提出了 UM-ODTrack 的通用視頻級別多模態(tài)感知跟蹤模型，其核心創(chuàng)新點包括：

1.視頻級別采樣： 將模型輸入從“圖像對”擴展到“視頻序列”級別，使模型能夠從更全局的視角理解視頻內(nèi)容。

2.在線密集時序令牌學(xué)習(xí)： 將目標(biāo)跟蹤重新定義為令牌序列傳播任務(wù)，設(shè)計了兩種簡單有效的在線密集時序令牌關(guān)聯(lián)機制，以自回歸的方式在視頻流中傳播目標(biāo)的外觀和運動軌跡信息。

3.模態(tài)可擴展感知： 設(shè)計了一種通用的模態(tài)感知跟蹤流程，通過兩個新穎的門控感知器，利用門控注意力機制自適應(yīng)學(xué)習(xí)跨模態(tài)表征。

一次性訓(xùn)練范式： 采用一次性訓(xùn)練方案，將學(xué)習(xí)到的多種模態(tài)的潛在表征壓縮到同一套模型參數(shù)中，實現(xiàn)一個模型支持多種跟蹤任務(wù)（RGB, RGB-T, RGB-D, RGB-E）的推理。

應(yīng)用的技術(shù)

1.視頻序列建模： 將視頻序列視為連續(xù)句子，借鑒語言建模思想進行上下文理解。

2.時序令牌關(guān)聯(lián)注意力機制： 提出了串聯(lián)時序令牌注意力和分離時序令牌注意力兩種機制，用于在線傳播和關(guān)聯(lián)時序信息。

3.門控注意力機制： 在條件門控感知器和門控模態(tài)可擴展感知器中應(yīng)用，以自適應(yīng)地融合和學(xué)習(xí)跨模態(tài)特征。

4.一次性/統(tǒng)一多任務(wù)學(xué)習(xí)： 通過一次性訓(xùn)練，使單一模型學(xué)習(xí)共享的視覺-語義特征空間，同時尊重不同任務(wù)的異質(zhì)性，實現(xiàn)多任務(wù)推理。

達到的效果

1.性能提升： 在七個可見光跟蹤基準(zhǔn)和五個多模態(tài)跟蹤基準(zhǔn)上進行了大量實驗，結(jié)果表明UM-ODTrack達到了最新的SOTA性能。

2.信息利用優(yōu)化： 提純后的令牌序列可作為后續(xù)視頻幀推理的時序提示，利用過去信息指導(dǎo)未來推理，實現(xiàn)了信息的有效傳遞和利用。

3.模型效率與泛化性： 一次性訓(xùn)練方案不僅減輕了訓(xùn)練負(fù)擔(dān)，還通過共享參數(shù)和跨任務(wù)學(xué)習(xí)提升了模型的表征能力，實現(xiàn)了從“一對一”到“一對多”的范式轉(zhuǎn)變，使模型更具通用性和靈活性。

方法

A. 架構(gòu)設(shè)計

UM-ODTrack，通用的視頻級模態(tài)感知框架它支持各種跟蹤任務(wù)，包括 RGB、RGB+熱成像、RGB+深度和 RGB+事件跟蹤。

下圖2和圖3是用于視頻級多模態(tài)跟蹤的 UM-ODTrack 框架的概覽。將整個視頻建模為一個連續(xù)序列，并以自回歸的方式逐幀解碼目標(biāo)實例的定位。首先，提出了一種新穎的視頻序列采樣策略，專門設(shè)計用于滿足視頻級模型的輸入要求（原則1：視頻級采樣）。然后，提出了一種新穎的模態(tài)標(biāo)記器，以共享編碼的方式對不同的模態(tài)源進行標(biāo)記化。隨后，為了捕獲視頻序列中目標(biāo)實例的時空軌跡信息，我們引入了兩種簡單而有效的時序令牌關(guān)聯(lián)注意力機制（原則2：視頻級關(guān)聯(lián)）。此外，引入了兩個強大的門控感知器來自適應(yīng)地學(xué)習(xí)跨模態(tài)的通用視覺表示，從而提高模型在不同跟蹤場景下的泛化能力（原則3：模態(tài)可擴展）。

基于上述建模技術(shù)，將獲得一個通用的模態(tài)感知跟蹤模型，該模型可以使用相同的模型架構(gòu)和參數(shù)同時推理多個子跟蹤任務(wù)。以下各節(jié)將給出詳細(xì)描述。

B. 視頻級多模態(tài)跟蹤公式化

本文的重點在于構(gòu)建一個通用的視頻級多模態(tài)跟蹤框架。為了全面理解 UM-ODTrack 框架，有必要描述視頻級多模態(tài)跟蹤的概念。首先，回顧一下先前主流的圖像對匹配跟蹤方法。給定一對視頻幀，即一個參考幀和一個搜索幀，主流視覺跟蹤器被公式化為

其中表示當(dāng)前搜索幀的預(yù)測邊界框坐標(biāo)。如果是傳統(tǒng)的卷積孿生跟蹤器，它會經(jīng)歷三個階段，即特征提取、特征融合和邊界框預(yù)測。而如果是transformer 跟蹤器，它僅包含一個骨干網(wǎng)絡(luò)和一個預(yù)測頭網(wǎng)絡(luò)，其中骨干網(wǎng)絡(luò)集成了特征提取和融合的過程。

一個transformer跟蹤器接收一系列不重疊的圖像塊（每個圖像塊的分辨率為）作為輸入。這意味著一個二維的參考-搜索圖像對需要通過一個塊嵌入層來生成多個一維圖像令牌序列，其中是令牌維度，，且。然后，這些一維圖像令牌被連接起來并加載到一個層的transformer編碼器中，進行特征提取和關(guān)系建模。每個transformer層包含一個多頭注意力機制和一個多層感知機。這里，我們將第個transformer層的前向過程公式化如下：

其中表示由第個transformer層生成的參考-搜索圖像對的拼接令牌序列，而表示當(dāng)前第個transformer層生成的令牌序列。

使用上述建模方法，我們可以構(gòu)建一個簡潔優(yōu)雅的跟蹤器來實現(xiàn)逐幀跟蹤。然而，這種建模方法有兩個明顯的缺點：

1.所構(gòu)建的跟蹤器僅專注于幀內(nèi)目標(biāo)匹配，缺乏建立跨幀關(guān)聯(lián)的能力，而這種能力對于跨視頻流跟蹤對象是必需的。

2.所構(gòu)建的跟蹤器僅限于單模態(tài)跟蹤場景，由于領(lǐng)域特定知識的偏差，缺乏快速擴展到多模態(tài)跟蹤的能力。因此，這些限制阻礙了視頻級多模態(tài)跟蹤算法的研究。

在這項工作中，旨在緩解這些挑戰(zhàn)，并為通用視頻級模態(tài)感知跟蹤算法提出一種新的設(shè)計范式。首先，我們將跟蹤框架的輸入從圖像對級別擴展到視頻級別以進行時序建模。然后，引入一個時序令牌序列，旨在傳播視頻序列中目標(biāo)實例的外觀、時空位置和軌跡信息。形式上，我們將視頻級跟蹤公式化如下：

其中表示長度為的 RGB 參考幀序列，而表示長度為的 RGB 搜索幀序列。通過這樣的設(shè)置，構(gòu)建了一個視頻級跟蹤框架，它接收任意長度的視頻片段來建模目標(biāo)對象的時空軌跡關(guān)系。

此外，為了提高視頻級跟蹤器的通用模態(tài)感知能力，我們將其擴展到多模態(tài)跟蹤領(lǐng)域。首先，將輸入從單模態(tài)范圍擴展到多模態(tài)范圍。接著，使用一個包含 RGB 編碼器和 D/T/E 編碼器的共享通用模態(tài)編碼器，分別用于提取和融合 RGB 視頻片段和輔助視頻片段。隨后，設(shè)計了兩個新穎的門控感知器來學(xué)習(xí)跨模態(tài)的通用潛在表示。定義如下：

其中表示來自輔助模態(tài)的長度為的參考幀序列，而表示來自輔助模態(tài)的長度為的搜索幀序列。是來自輔助模態(tài)的時序令牌。我們將在下一節(jié)更詳細(xì)地描述所提出的核心模塊。

C. 視頻序列采樣策略

大多數(shù)現(xiàn)有跟蹤器通常在一個短時間間隔內(nèi)（例如50、100或200幀間隔）對單模態(tài)圖像對進行采樣。然而，這種采樣方法帶來了一個潛在的限制，因為這些跟蹤器無法捕捉被跟蹤目標(biāo)的長期運動變化，從而限制了跟蹤算法在長期場景中的魯棒性。同時，它們無法從多個模態(tài)的視角感知目標(biāo)的實時狀態(tài)。為了從長期視頻序列中獲取更豐富的目標(biāo)實例的多模態(tài)時空軌跡信息，我們偏離了傳統(tǒng)的短期圖像對采樣方法，并提出了一種新的視頻序列采樣策略。具體來說，在訓(xùn)練階段，我們建立一個更大的采樣間隔，并在該間隔內(nèi)隨機提取多個視頻幀，以形成任何模態(tài)和任何長度的視頻片段（, ）。盡管這種采樣方法可能看起來簡單，但它使我們能夠近似整個視頻序列的內(nèi)容。這對于視頻級多模態(tài)跟蹤建模至關(guān)重要。

D. 模態(tài)標(biāo)記器

直觀地說，考慮到來自不同模態(tài)（即深度、熱紅外和事件）的輸入幀的可變性，傳統(tǒng)方法是為每種模態(tài)設(shè)計單獨的標(biāo)記器。這使得不同的輸入幀能夠被轉(zhuǎn)換為具有相同序列格式的令牌向量。相反，考慮到不同模態(tài)間可能存在共享的語義信息，我們將深度、熱紅外和事件數(shù)據(jù)視為統(tǒng)一的視覺表示。設(shè)計了一個共享的模態(tài)標(biāo)記器，以將來自不同模態(tài)的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為相同的一維序列。對于包含深度、熱紅外和事件等多種模態(tài)信息的視覺輸入，我們采用單個二維卷積層作為統(tǒng)一標(biāo)記器。隨后，利用一個基于transformer的通用模態(tài)編碼器來處理這些令牌。

E. 門控感知器

由于基礎(chǔ)視覺跟蹤器的模態(tài)感知能力有限，一旦在RGB跟蹤基準(zhǔn)上進行訓(xùn)練，它就無法輕易適應(yīng)復(fù)雜的多模態(tài)跟蹤場景。因此，我們設(shè)計了兩個簡單而有效的模塊，即條件門控和門控模態(tài)可擴展感知器，如圖3所示，以自適應(yīng)地學(xué)習(xí)通用的跨模態(tài)表示。

條件門控。為了在共享的通用模態(tài)編碼器中實現(xiàn)多模態(tài)表示學(xué)習(xí)，我們在每個編碼器層之間以殘差方式添加了條件門控模塊。在條件門控模塊中，可見光特征和相應(yīng)的輔助特征（即深度、熱和事件）沿著通道維度進行跨模態(tài)對齊，以補充來自其他模態(tài)的豐富細(xì)節(jié)。然后，對齊后的多模態(tài)表示由條件門控模塊進行門控，以促進模態(tài)間的交叉學(xué)習(xí)。

條件門控模塊可以規(guī)范化為以下方程：

其中和表示在特定模態(tài)下從第t個視頻幀提取的可見光模態(tài)特征和輔助模態(tài)特征。是一個用于縮放維度的嵌入層。是一個門控網(wǎng)絡(luò)。它根據(jù)模態(tài)源之間的質(zhì)量動態(tài)控制多模態(tài)跟蹤的表示學(xué)習(xí)，該質(zhì)量通過一個兩層感知機和一個門控激活函數(shù)進行評估。代表條件門控模塊的輸出特征。值得注意的是，最后一個條件門控網(wǎng)絡(luò)層的學(xué)習(xí)參數(shù)被初始化為零，使其輸出能夠與基礎(chǔ)視覺跟蹤器的輸出相匹配，從而有助于提高訓(xùn)練穩(wěn)定性。

門控模態(tài)可擴展感知器。在執(zhí)行通用模態(tài)編碼器之后，可以獲得一個可見光特征，一個輔助特征，一個可見光時序令牌序列，以及一個輔助模態(tài)時序令牌序列。來自不同模態(tài)的兩個時序令牌，其特征空間分布反映了同一目標(biāo)對象跨多個模態(tài)源的外觀和運動軌跡信息。因此，我們設(shè)計了一種基于門控注意力機制的新型模態(tài)可擴展感知器，以進一步增強對多模態(tài)跟蹤場景的感知。具體來說，學(xué)習(xí)到的多模態(tài)表示與兩個時序模態(tài)令牌進行交叉注意力計算，以從多個視圖構(gòu)建通用的模態(tài)依賴關(guān)系。這種多模態(tài)關(guān)系可以表示為以下公式：

其中表示一個多模態(tài)交叉注意力層，以前一個輸入作為查詢，后一個作為鍵和值。表示一個多模態(tài)前饋網(wǎng)絡(luò)層。是 GMP 模塊中 UM-Attn 操作的輸出特征。是 GMP 模塊中門控操作的輸出特征。代表 GMP 模塊的輸出特征。通過采用這種新穎的門控注意力機制，我們的 UM-ODTrack 能夠自適應(yīng)地將多模態(tài)信息聚合到一個共享的視覺-語義特征空間中，有效提高了我們跟蹤器的模態(tài)感知能力，從而首次實現(xiàn)了真正通用的模態(tài)跟蹤。

F. 時序令牌關(guān)聯(lián)注意力機制

不采用復(fù)雜的視頻transformer作為編碼視頻內(nèi)容的基礎(chǔ)框架，而是從一個新的視角進行設(shè)計，利用簡單的 2D transformer架構(gòu)，即 2D ViT。為了構(gòu)建一個優(yōu)雅的實例級幀間關(guān)聯(lián)機制，必須擴展原始的 2D 注意力操作，以提取和整合視頻級特征。在我們的方法中，我們基于壓縮-傳播的概念設(shè)計了兩種時序令牌注意力機制，即拼接令牌注意力機制和分離令牌注意力機制，如下圖4（左）所示。其核心設(shè)計在于向注意力操作中注入額外信息，例如更多的視頻序列內(nèi)容和時序令牌向量，使它們能夠提取更豐富的目標(biāo)實例的時空軌跡信息。

在圖4(a)中，原始的注意力操作通常采用圖像對作為輸入，其中建模它們關(guān)系的過程可以表示為。在這種范式下，跟蹤器只能在每個圖像對內(nèi)部進行獨立交互，建立有限的時序相關(guān)性。在圖4(b)中，所提出的拼接令牌注意力機制將輸入擴展到前述的視頻序列，從而能夠?qū)鐜臅r空關(guān)系進行密集建模。受語言通過拼接形成上下文特性的啟發(fā)，我們同樣應(yīng)用拼接操作來為視頻序列建立上下文。其公式可以表示為：

其中是第個視頻幀的時序令牌序列。表示令牌間的拼接操作。, 和是拼接后特征令牌的時空線性投影。

另一方面，當(dāng)執(zhí)行多模態(tài)跟蹤任務(wù)時，當(dāng)前的時序令牌關(guān)聯(lián)注意力機制也同樣適用。具體來說，與可見光時序令牌類似，多模態(tài)時序令牌是一個用零初始化的向量，用于在多模態(tài)跟蹤場景中提取目標(biāo)實例的外觀和時空定位信息。公式表示如下：

值得注意的是，本文為每個視頻幀引入了一個時序令牌，旨在存儲采樣視頻序列的目標(biāo)軌跡信息。換句話說，我們將目標(biāo)的當(dāng)前時空軌跡信息壓縮到一個令牌向量中，該向量用于傳播到后續(xù)視頻幀。

一旦目標(biāo)信息被時序令牌提取，以自回歸的方式將令牌向量從第幀傳播到第幀，如圖4（右）所示。首先，將第幀的時序令牌添加到第幀的空令牌上，得到更新后的第幀的內(nèi)容令牌，隨后將其作為輸入傳播到后續(xù)幀。形式上，可見光和多模態(tài)跟蹤的傳播過程為：

值得注意的是，我們?yōu)槊總€視頻幀引入了一個時序令牌，旨在存儲采樣視頻序列的目標(biāo)軌跡信息。換句話說，我們將目標(biāo)的當(dāng)前時空軌跡信息壓縮到一個令牌向量中，該向量用于傳播到后續(xù)視頻幀。

一旦目標(biāo)信息被時序令牌提取，我們以自回歸的方式將令牌向量從第幀傳播到第幀，如圖4（右）所示。首先，將第幀的時序令牌添加到第幀的空令牌上，得到更新后的第幀的內(nèi)容令牌，隨后將其作為輸入傳播到后續(xù)幀。形式上，可見光和多模態(tài)跟蹤的傳播過程為：

其中是第幀輔助模態(tài)視頻幀的時序令牌序列。是第幀輔助模態(tài)視頻幀的空令牌。

在這種新的設(shè)計范式中，可以使用時序令牌作為推斷下一幀的提示，利用過去的信息來指導(dǎo)未來的推斷。此外，我們的模型通過在線令牌傳播隱式地傳播目標(biāo)實例的外觀、定位和軌跡信息。這顯著提高了視頻級框架的跟蹤性能。

另一方面，如圖4(c)所示，所提出的分離令牌注意力機制將注意力操作分解為三個子過程：參考幀之間的自信息聚合、參考幀與搜索幀之間的跨信息聚合，以及時序令牌與視頻序列之間的跨信息聚合。這種分解在一定程度上提高了模型的計算效率，同時令牌關(guān)聯(lián)遵循上述流程。

與在線更新的討論：大多數(shù)先前的跟蹤算法結(jié)合在線更新方法來訓(xùn)練時空跟蹤模型，例如添加額外的得分質(zhì)量分支或 IoU 預(yù)測分支。它們通常需要復(fù)雜的優(yōu)化過程和更新決策規(guī)則。與這些方法相比，我們通過利用令牌序列的在線迭代傳播，避免了復(fù)雜的在線更新策略，使我們能夠?qū)崿F(xiàn)更高效的模型表示和計算。

G. 一次性訓(xùn)練與通用推理

預(yù)測頭。對于預(yù)測頭網(wǎng)絡(luò)的設(shè)計，采用傳統(tǒng)的分類頭和邊界框回歸頭來實現(xiàn)期望的結(jié)果。分別通過三個子卷積網(wǎng)絡(luò)獲得預(yù)測的分類得分圖、邊界框尺寸和偏移量尺寸。

一次性訓(xùn)練。如果一個單一的神經(jīng)網(wǎng)絡(luò)模型能夠同時跨多個任務(wù)進行推理，它將呈現(xiàn)出顯著的優(yōu)勢。這不僅減少了需要為每個領(lǐng)域手工設(shè)計具有適當(dāng)歸納偏置的模型，還增加了可用訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

對于 RGB 跟蹤任務(wù)，本文使用包含 LaSOT, GOT-10k, TrackingNet 和 COCO 的訓(xùn)練數(shù)據(jù)集來訓(xùn)練我們的基礎(chǔ)視頻級跟蹤模型。在輸入數(shù)據(jù)方面，我們將包含三個 192 × 192 像素參考幀和兩個 384 × 384 像素搜索幀的視頻序列作為模型的輸入。

對于多模態(tài)跟蹤任務(wù)，與在單個下游數(shù)據(jù)集上獨立訓(xùn)練的跟蹤算法，如[62], [64], [66], [74]相比，我們的目標(biāo)是同時聯(lián)合訓(xùn)練多個跟蹤任務(wù)（即 RGB-T 跟蹤、RGB-D 跟蹤和 RGB-E 跟蹤）。我們在聯(lián)合的熱紅外（即 LasHeR，對齊了 RGB 和紅外數(shù)據(jù)）、深度（即 DepthTrack，對齊了 RGB 和深度數(shù)據(jù)）和事件（即 VisEvent，對齊了 RGB 和事件數(shù)據(jù)）數(shù)據(jù)集上，以一次性訓(xùn)練的方式訓(xùn)練我們的通用模態(tài)感知跟蹤模型，并使用相同的損失函數(shù)監(jiān)督其預(yù)測的邊界框。

具體來說，采用焦點損失作為分類損失，并采用 L1 損失和 GIoU 損失作為回歸損失�？倱p失可以公式化為：

其中和是正則化參數(shù)。由于我們使用視頻片段進行建模，任務(wù)損失是針對每個視頻幀獨立計算的，并且最終損失是在搜索幀的長度上取平均值。

通用推理。 算法1總結(jié)了我們模型的推理過程。對于 RGB 跟蹤，我們遵循與其他transformer跟蹤器相同的跟蹤流程。得益于我們的一次性訓(xùn)練方案和門控模態(tài)可擴展感知器模塊，對于 RGB-D、RGB-T 和 RGB-E 跟蹤任務(wù)，我們使用同一套模型參數(shù)無縫地執(zhí)行任何跟蹤任務(wù)的推理，而無需額外的多次微調(diào)技術(shù)。在輸入數(shù)據(jù)方面，為了與訓(xùn)練設(shè)置保持一致，我們在推理階段將三個等間隔的參考幀納入我們的跟蹤器。同時，搜索幀和時序令牌向量被逐幀輸入。

實驗A. 實現(xiàn)細(xì)節(jié)

本文使用 ViT-Base 模型作為視覺編碼器，其參數(shù)使用 MAE 預(yù)訓(xùn)練參數(shù)進行初始化。采用 AdamW 來優(yōu)化網(wǎng)絡(luò)參數(shù)，骨干網(wǎng)絡(luò)的初始學(xué)習(xí)率為，其余部分為，并設(shè)置權(quán)重衰減為。在每個周期中隨機采樣 60,000 個圖像對。對于 RGB 跟蹤任務(wù)，我們設(shè)置訓(xùn)練周期為 300 個周期。學(xué)習(xí)率在 240 個周期后下降為原來的十分之一。對于多模態(tài)跟蹤任務(wù)，我們設(shè)置訓(xùn)練周期為 15 個周期。學(xué)習(xí)率在 10 個周期后下降為原來的十分之一。該模型在配備兩塊 80GB Tesla A100 GPU 的服務(wù)器上運行，并設(shè)置批處理大小為 8。

B. 與 SOTA 的比較

在七個可見光基準(zhǔn)（包括 LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020, TNL2K 和 OTB100）和五個多模態(tài)跟蹤基準(zhǔn)（包括 LasHeR, RGBT234, DepthTrack, VOT-RGBD2022 和 VisEvent）上將我們的 ODTrack 和 UM-ODTrack 與最先進的跟蹤器進行了比較。我們的 ODTrack 和 UM-ODTrack 在這些數(shù)據(jù)集上展示了卓越的性能。

GOT10K。GOT10K 是一個大規(guī)模跟蹤數(shù)據(jù)集，包含超過 10,000 個視頻序列。GOT10K 基準(zhǔn)提出了一個協(xié)議，要求跟蹤器僅使用其訓(xùn)練集進行訓(xùn)練。我們遵循該協(xié)議來訓(xùn)練我們的框架。結(jié)果記錄在表 I 中。在先前的方法中，未采用視頻級采樣策略的 ARTrack384 在 AO（平均重疊率）、SR0.5 和 SR0.75（閾值為 0.5 和 0.75 時的成功率）指標(biāo)上分別達到了 SOTA 性能。受益于提出的新視頻級采樣策略，我們的 ODTrack384 取得了新的最先進水平，在 AO、SR0.5 和 SR0.75 指標(biāo)上分別達到了 77.0%、87.9% 和 75.1%。結(jié)果表明，我們 ODTrack 的一個優(yōu)勢來自于旨在釋放模型潛力的視頻級采樣策略。

LaSOT。LaSOT 是一個大規(guī)模長期跟蹤基準(zhǔn)，包含 1120 個訓(xùn)練序列和 280 個測試序列。如表 I 所示，可以看到我們的 ODTrack384 通過有趣的時序令牌注意力機制取得了良好的跟蹤結(jié)果。與最新的 ARTrack 性能相比，我們的 ODTrack384 在 AUC、P Norm 和 P 分?jǐn)?shù)方面分別實現(xiàn)了 0.6%、1.5% 和 1.5% 的提升。結(jié)果表明，跟蹤器學(xué)習(xí)到的具有目標(biāo)關(guān)聯(lián)依賴關(guān)系的時空特征可以提供可靠的目標(biāo)定位。此外，由于我們的時序令牌旨在關(guān)聯(lián)目標(biāo)實例以提高在多種跟蹤挑戰(zhàn)（即快速運動、背景干擾、視角變化和尺度變化等）下的魯棒性和準(zhǔn)確性。因此，如圖 5 所示，展示了 LaSOT 數(shù)據(jù)集的屬性評估，以說明我們的令牌關(guān)聯(lián)機制如何幫助跟蹤器學(xué)習(xí)關(guān)于目標(biāo)實例的時空軌跡信息，顯著增強長期跟蹤場景中的目標(biāo)定位。

TrackingNet。TrackingNet 是一個大規(guī)模短期數(shù)據(jù)集，提供了一個包含 511 個視頻序列的測試集。如下表 I 報告，通過實現(xiàn)目標(biāo)實例的跨幀關(guān)聯(lián)，ODTrack384 取得了 85.1% 的成功分?jǐn)?shù)（AUC）、90.1% 的歸一化精度分?jǐn)?shù)（P Norm）和 84.9% 的精度分?jǐn)?shù)（P），分別優(yōu)于先前沒有令牌關(guān)聯(lián)的高性能跟蹤器 SeqTrack 1.2%、1.3% 和 1.3%。同時，與最近沒有時序令牌關(guān)聯(lián)的視頻級跟蹤器 VideoTrack 相比，ODTrack 在 AUC、P Norm 和 P 指標(biāo)上分別優(yōu)于 1.3%、1.4% 和 1.8%。這表明我們的時序令牌可以有效地跨搜索幀關(guān)聯(lián)目標(biāo)對象，并且這種新穎的關(guān)聯(lián)方式可以增強我們 ODTrack 在多個跟蹤場景中的泛化能力。

LaSOText。LaSOText 是 LaSOT 的擴展版本，包含 150 個長期視頻序列。如表 I 報告，我們的方法取得了良好的跟蹤結(jié)果，優(yōu)于大多數(shù)比較的跟蹤器。例如，我們的跟蹤器取得了 52.4% 的 AUC、63.9% 的 P Norm 分?jǐn)?shù)和 60.1% 的 P 分?jǐn)?shù)，分別優(yōu)于 ARTrack 0.5%、1.9% 和 1.6%。此外，我們的 ODTrack 在成功分?jǐn)?shù)上也優(yōu)于基于圖像對匹配的先進跟蹤器 OSTrack 1.9%。結(jié)果符合我們的預(yù)期，即視頻級建模在復(fù)雜的長期跟蹤場景中具有更穩(wěn)定的目標(biāo)定位能力。

VOT2020。VOT2020 包含 60 個具有挑戰(zhàn)性的序列，并使用二進制分割掩碼作為真實標(biāo)簽。我們使用 Alpha-Refine作為 ODTrack 的后處理網(wǎng)絡(luò)來預(yù)測分割掩碼。期望平均重疊率（EAO）指標(biāo)用于評估所提出的跟蹤器和其他先進跟蹤器。如表 III 所示，我們的 ODTrack384 和 -L384 在掩碼評估上取得了最佳結(jié)果，EAO 分別為 58.1% 和 60.5%。在 EAO 指標(biāo)上，與未探索時序關(guān)系的跟蹤器（即 SBT 和 Ocean+）相比，ODTrack 分別優(yōu)于 6.6% 和 9%。這些結(jié)果表明，通過注入時序令牌注意力，我們的 ODTrack 在復(fù)雜跟蹤場景中具有魯棒性。

TNL2K 和 OTB100。在 TNL2K 和 OTB100 基準(zhǔn)上評估了我們的跟蹤器。它們分別包含 700 和 100 個視頻序列。表 II 中的結(jié)果顯示，ODTrack384 和 -L384 在 TNL2K 和 OTB100 基準(zhǔn)上取得了最佳性能。例如，我們的 ODTrack384 在 TNL2K 和 OTB100 數(shù)據(jù)集上分別獲得了 60.9% 和 72.3% 的 AUC 分?jǐn)?shù)。在 TNL2K 數(shù)據(jù)集上，與 ARTrack 相比，ODTrack 優(yōu)于其 1.1%。同時，與非自回歸跟蹤器 Mixformer 相比，我們的 ODTrack 在 OTB100 數(shù)據(jù)集上的 AUC 分?jǐn)?shù)高出 2.3%�？梢杂^察到，通過采用有趣的自回歸建模方法來捕獲時序上下文，我們的 ODTrack 能夠降低模型復(fù)雜性并提高性能。

DepthTrack。DepthTrack包含 150 個訓(xùn)練和 50 個測試 RGB-D 長期視頻序列。如下表 IV 所示，我們在其上將我們的模型與現(xiàn)有的 SOTA RGB-D 跟蹤器進行了比較。在相同的圖像分辨率設(shè)置下，我們的 UM-ODTrack256 在跟蹤精度（Pr）、召回率（Re）和 F-score 上分別優(yōu)于 ViPT 1.1%、2.6% 和 1.8%。此外，由于提出的高效門控注意力機制，我們的 UM-ODTrack384 在 RGB-D 跟蹤領(lǐng)域取得了 SOTA 性能。值得注意的是，當(dāng)輸入尺寸從 256 增加到 384 時，UM-ODTrack 在性能上取得了大幅提升。這表明我們結(jié)合大輸入分辨率的時序關(guān)聯(lián)方法在多模態(tài)長期跟蹤場景中尤為重要。

VOT-RGBD2022。VOT-RGBD2022是一個短期跟蹤數(shù)據(jù)集，包含 127 個 RGB-D 視頻序列。如下表 V 報告，與大多數(shù)其他跟蹤算法相比，我們的跟蹤器取得了新的最先進結(jié)果。具體來說，我們的 UM-ODTrack256 在 EAO、準(zhǔn)確性和魯棒性指標(biāo)上分別獲得了 78.0%、81.4% 和 94.8% 的分?jǐn)?shù)。與最新的統(tǒng)一跟蹤器 Un-Track 相比，我們的 UM-ODTrack256 在期望平均重疊率（EAO）和魯棒性分?jǐn)?shù)上分別實現(xiàn)了 5.9% 和 7.9% 的提升。這表明我們的統(tǒng)一建模技術(shù)對于通用特征學(xué)習(xí)更有效，并且可以為每種模態(tài)（即深度模態(tài)）提供合適且穩(wěn)定的特征空間。

LasHeR。LasHeR 是一個大規(guī)模 RGB-T 跟蹤數(shù)據(jù)集，包含 245 個短期測試視頻序列。結(jié)果報告在下圖 7 中，我們的 UM-ODTrack 取得了令人驚訝的結(jié)果，顯著優(yōu)于先前的 SOTA RGB-T 跟蹤算法，在成功圖和精度圖上分別超過第二名 4.5% 和 6.3%。這些結(jié)果符合我們的預(yù)期，即基于門控注意力機制的特征學(xué)習(xí)可以自適應(yīng)地提取和融合不同模態(tài)的特征，以提高多模態(tài)跟蹤性能。同時，為了驗證我們的門控感知器能夠有效解決包括遮擋（NO）、部分遮擋（PO）、完全遮擋（TO）、低光照（LI）、低分辨率（LR）、形變（DEF）、背景干擾（BC）、運動模糊（MB）、熱交叉（TC）、相機移動（CM）、快速運動（FM）、尺度變化（SV）、透明遮擋（HO）、高光照（HI）、突然光照變化（AIV）、相似外觀（SA）、縱橫比變化（ARC）、出視野（OV）和幀丟失（FL）在內(nèi)的多種挑戰(zhàn)，我們展示了 LasHeR 數(shù)據(jù)集的屬性評估結(jié)果。如圖 6 所示，我們的 UM-ODTrack 在每個屬性上都表現(xiàn)良好。因此，可以表明我們帶有門控感知器的視頻級多模態(tài)建模方案能夠有效地統(tǒng)一和融合多模態(tài)特征，從而使我們的跟蹤器能夠很好地解決復(fù)雜的跟蹤場景。

RGBT234。RGBT234 包含 234 個 RGB-T 跟蹤視頻，約 116.6K 個圖像對。如下圖6 所示，UM-ODTrack256 在 SR 和 PR 指標(biāo)上分別獲得了 69.2% 和 91.5% 的分?jǐn)?shù)。與高性能 RGB-T 專家跟蹤器 BAT 相比，我們的方法取得了良好的跟蹤結(jié)果，在成功圖和精度圖上分別優(yōu)于 5.1% 和 4.7%。這意味著我們的 GMP 模塊可以有效地聚合來自熱紅外模態(tài)的目標(biāo)信息，實現(xiàn)魯棒的多模態(tài)跟蹤。

VisEvent。VisEvent 是最大的 RGB-E 跟蹤基準(zhǔn)，包含 320 個測試視頻。比較結(jié)果如圖 8 所示。我們的 UM-ODTrack384 取得了新的 SOTA 跟蹤結(jié)果，成功分?jǐn)?shù)和精度分?jǐn)?shù)分別為 62.4% 和 81.3%�？梢钥闯觯覀兣鋫溟T控模態(tài)可擴展感知器（GMP）模塊的 UM-ODTrack 在事件場景中也實現(xiàn)了精確跟蹤。這與我們的直覺一致，即 GMP 模塊可以輕松擴展到不同的模態(tài)跟蹤場景，并有效改善多模態(tài)特征的表示。

C. 消融研究

令牌關(guān)聯(lián)的有效性。為了研究等式 11 中令牌關(guān)聯(lián)的效果，我們在表 VII 中進行了是否傳播時序令牌的實驗。w/o Token 表示采用視頻級采樣策略但沒有令牌關(guān)聯(lián)的實驗。從第二行和第三行可以觀察到，缺少令牌關(guān)聯(lián)機制導(dǎo)致 AUC 分?jǐn)?shù)下降 1.2%。這一結(jié)果表明令牌關(guān)聯(lián)在跨幀目標(biāo)關(guān)聯(lián)中起著至關(guān)重要的作用。此外，我們在表 VII 中進行實驗，以驗證視頻級跟蹤框架中提出的兩種令牌關(guān)聯(lián)方法的有效性。我們可以觀察到，分離和拼接方法都實現(xiàn)了顯著的性能提升，其中拼接方法顯示出稍好的結(jié)果。這證明了兩種注意力機制的有效性。

搜索視頻片段的長度。如下表 VIII 所示，消融了搜索視頻序列長度對跟蹤性能的影響。當(dāng)視頻片段長度從 2 增加到 3 時，AUC 指標(biāo)提高了 0.3%。然而，序列長度的持續(xù)增加并未帶來性能提升，表明過長的搜索視頻片段會給模型帶來學(xué)習(xí)負(fù)擔(dān)。因此，我們應(yīng)選擇適當(dāng)?shù)乃阉饕曨l片段長度。此外，為了評估序列長度對多模態(tài)跟蹤性能的影響，在 LasHeR, DepthTrack和 VisEvent 基準(zhǔn)上進行了對比實驗，如表 XVI 所示。視頻序列長度的選擇對于利用時序信息至關(guān)重要。當(dāng)序列長度從 2 增加到 3 時，我們的跟蹤器在 LasHeR, DepthTrack 和 VisEvent 基準(zhǔn)上的 SR 和 F-score 分別提高了 0.7%, 0.2% 和 1.6%。這些增益來自于通過多幀信息有效建模目標(biāo)外觀變化和運動軌跡。然而，當(dāng)序列長度超過 3 時，由于跨模態(tài)時序噪聲的積累，性能趨于穩(wěn)定或略有下降。這證實了適當(dāng)選擇的序列長度可以提供互補信息，而過長的序列更可能引入冗余或有噪聲的上下文信號。因此，我們的 UM-ODTrack 采用序列長度 3 作為最佳設(shè)置，以在合適的時間跨度內(nèi)捕獲上下文信息。

采樣范圍。為了驗證采樣范圍對算法性能的影響，在下表 IX 中對視頻幀的采樣范圍進行了實驗。當(dāng)采樣范圍從 200 擴大到 1200 時，AUC 指標(biāo)的性能有顯著提高，表明視頻級框架能夠從更大的采樣范圍學(xué)習(xí)目標(biāo)軌跡信息。

門控感知器和門控激活函數(shù)的有效性。我們進行實驗以驗證在通用模態(tài)感知跟蹤框架下提出的兩個組件，即條件門控和門控模態(tài)可擴展感知器（GMP）的有效性，如下表 X 所示�；€方法指的是 ODTrack 的雙流版本。通過將條件門控模塊添加到基線中，我們的跟蹤器在三個下游跟蹤數(shù)據(jù)集上的性能得到了改善。例如，配備條件門控的跟蹤器在 DepthTrack 基準(zhǔn)上的 F-score 指標(biāo)實現(xiàn)了 1.3% 的提升。此外，通過將 GMP 納入我們的模型，其性能得到進一步改善。這證明了我們提出的兩個門控模塊的有效性。此外，為了研究門控激活函數(shù)的效果，在表 XIII 中使用了不同的門控激活函數(shù)進行實驗。與 ReLU 和 sigmoid 相比，tanh 激活函數(shù)表現(xiàn)最佳。這一結(jié)果表明，在我們的門控感知器中，tanh 門控函數(shù)更適合學(xué)習(xí)和表示通用的多模態(tài)跟蹤任務(wù)，可能提供更好的泛化能力。

條件門控和 GMP 的層數(shù)。分別比較了條件門控和 GMP 的層數(shù)對模型的影響。實驗結(jié)果記錄在表 XI 和表 XII 中。對于條件門控，隨著層數(shù)的增加，我們跟蹤器的性能相應(yīng)提高。這意味著在通用模態(tài)編碼器中集成更多層有助于學(xué)習(xí)多模態(tài)表示。另一方面，當(dāng)在 GMP 模塊中使用三層或六層時，我們的 UM-ODTrack 取得了良好的跟蹤結(jié)果。為了平衡速度和性能，我們選擇使用三層配置。

多模態(tài)線索的重要性。為了驗證在視覺跟蹤中融合 RGB 幀與其他模態(tài)幀的有效性，我們報告了 UM-ODTrack 上僅使用 RGB 數(shù)據(jù)和雙模態(tài)數(shù)據(jù)的跟蹤結(jié)果。如表 XIV (#1 和 #5) 所示，當(dāng)僅使用 RGB 幀時，我們的跟蹤器在三個下游基準(zhǔn)上表現(xiàn)出顯著的性能下降。例如，在 LasHeR 數(shù)據(jù)集中，SR 和 PR 指標(biāo)分別下降了 6.3% 和 7.2%，表明多模態(tài)線索的注入（或多模態(tài)融合）對于多模態(tài)跟蹤是顯著有效且至關(guān)重要的。

共享模態(tài)標(biāo)記器的重要性。我們比較了共享和非共享標(biāo)記器對多模態(tài)跟蹤性能的影響。在實驗中，我們使用共享和非共享標(biāo)記器對多模態(tài)數(shù)據(jù)進行編碼，并將編碼后的數(shù)據(jù)輸入跟蹤模型進行訓(xùn)練和推理。共享標(biāo)記器是指使用統(tǒng)一的標(biāo)記器對所有模態(tài)的數(shù)據(jù)進行編碼，而非共享標(biāo)記器則涉及對每種模態(tài)使用不同的標(biāo)記器。如表 XIV (#2 和 #5) 所示，我們發(fā)現(xiàn)共享標(biāo)記器的跟蹤性能更優(yōu)。這表明共享標(biāo)記器可以更有效地捕捉多模態(tài)數(shù)據(jù)之間的相關(guān)性，從而提升我們跟蹤器的整體性能。

完全微調(diào) vs. 適配器/提示微調(diào)。如圖 12 所示，探索了使用不同訓(xùn)練策略（例如適配器微調(diào)和完全微調(diào)）來訓(xùn)練我們模型的實驗。實驗結(jié)果記錄在表 XIV (#3 和 #5) 中�？梢杂^察到，適配器微調(diào)和完全微調(diào)策略都取得了良好的性能提升，其中完全微調(diào)顯示出稍好的結(jié)果。理論上，具有較少學(xué)習(xí)參數(shù)的適配器微調(diào)可以節(jié)省更多 GPU 資源。然而，在實踐中，由于其他模型參數(shù)在訓(xùn)練期間保留了梯度，其訓(xùn)練資源并未顯著減少，這與完全微調(diào)方案相當(dāng)。因此，我們選擇具有更多學(xué)習(xí)參數(shù)的完全微調(diào)作為我們的訓(xùn)練策略。

多任務(wù)一次性訓(xùn)練 vs. 單任務(wù)獨立訓(xùn)練。為了評估多任務(wù)統(tǒng)一（一次性）訓(xùn)練對我們最終模型的好處，我們?yōu)槿齻€子跟蹤任務(wù)獨立訓(xùn)練了專家模型，如表 XIV 所示。#4 和 #5 的比較結(jié)果表明，我們的一次性訓(xùn)練方案帶來了顯著的性能提升。例如，僅在 DepthTrack 數(shù)據(jù)集上訓(xùn)練的模型達到了 67.8% 的 F-score，而在 DepthTrack, LasHeR 和 VisEvent 上聯(lián)合訓(xùn)練的模型則達到了 69.3% 的更高 F-score，提升了 1.5%。將此改進歸因于每個模態(tài)跟蹤任務(wù)可用訓(xùn)練數(shù)據(jù)數(shù)量和多樣性的增加，以及設(shè)計的門控感知器在聚合多模態(tài)特征方面的有效性。這些因素共同增強了我們統(tǒng)一多模態(tài)跟蹤模型在各種跟蹤場景中的魯棒性和泛化能力。

模態(tài)權(quán)重比率。我們進行了一項比較研究，如表 XV 所示，以評估不同模態(tài)權(quán)重對模型性能的影響。如結(jié)果所示，跟蹤器的變體在不同權(quán)重方案下表現(xiàn)一致良好。例如，在權(quán)重配置為 depth: infrared: event = 2:1:1 時，我們的模型在 DepthTrack, LasHeR 和 VisEvent 數(shù)據(jù)集上分別實現(xiàn)了 69.1%, 60.4% 和 61.7% 的 F-score 和 SR 值。這些發(fā)現(xiàn)表明，我們的方法對模態(tài)的具體權(quán)重不高度敏感。因此，等權(quán)重方案（depth: infrared: event = 1:1:1）可以有效地平衡每個模態(tài)的貢獻，并作為我們模型的一個魯棒的默認(rèn)配置。

D. 定性分析

速度、FLOPs 和參數(shù)量分析。在模型參數(shù)量、FLOPs 和推理速度方面進行了對比實驗，如表 XVII 所示。在相同的測試機器（即 2080Ti）上，ODTrack 與最新的跟蹤器 SeqTrack 相比獲得了更快的推理速度。我們的跟蹤器運行速度為 32 fps。

可視化。對于 RGB 跟蹤任務(wù)，為了直觀展示我們方法的有效性，特別是在包含相似干擾物的復(fù)雜場景中，在 LaSOT 上可視化了ODTrack 和三個先進跟蹤器的跟蹤結(jié)果。如圖 9 所示，由于其能夠密集傳播目標(biāo)的軌跡信息，我們的跟蹤器在這些序列上遠遠優(yōu)于最新的跟蹤器 SeqTrack。

對于多模態(tài)跟蹤任務(wù)，我們分別在 LasHeR, DepthTrack 和 VisEvent 數(shù)據(jù)集上可視化了我們的 UM-ODTrack 和其他 SOTA 跟蹤器的多模態(tài)跟蹤結(jié)果，如圖 11 所示。受益于門控感知器對任意模態(tài)的通用感知能力，與其他多模態(tài)跟蹤器相比，我們的 UM-ODTrack 能夠在復(fù)雜序列中準(zhǔn)確定位目標(biāo)。同時，我們比較了帶有和不帶門控模態(tài)可擴展感知器（GMP）的特征表示。如圖 13 所示，在沒有 GMP 模塊的情況下，模型缺乏捕捉模態(tài)間相關(guān)性的能力，導(dǎo)致學(xué)習(xí)到的表示常常關(guān)注與目標(biāo)相似的干擾物。相比之下，當(dāng)配備包含基于注意力的門控機制的 GMP 模塊時，本文的跟蹤器在復(fù)雜的多模態(tài)跟蹤場景中有效抑制了此類干擾，使模型能夠更準(zhǔn)確地聚焦于目標(biāo)對象。

此外，可視化了時序令牌注意力操作的注意力圖，如圖 10 所示。我們可以觀察到時序令牌持續(xù)傳播并關(guān)注物體的運動軌跡信息，這有助于我們的跟蹤器準(zhǔn)確定位目標(biāo)實例。

結(jié)論

本工作探索了一個有趣的視頻級視覺目標(biāo)跟蹤框架，稱為 ODTrack。將視覺跟蹤重新定義為一個令牌傳播任務(wù)，以自回歸的方式密集關(guān)聯(lián)跨視頻幀的上下文關(guān)系。此外，為了從單模態(tài)感知擴展到多模態(tài)感知，提出了 UM-ODTrack，一個通用的視頻級模態(tài)感知視覺跟蹤框架，通過設(shè)計門控注意力機制有效聚合目標(biāo)實例的多模態(tài)時序信息。具體來說，設(shè)計了一種視頻序列采樣策略和兩種時序令牌傳播注意力機制，使得所提出的框架能夠簡化視頻級時空建模并避免復(fù)雜的在線更新策略。此外，提出了兩個門控模態(tài)可擴展感知器來聚合來自各種模態(tài)的目標(biāo)時空信息。最后，本模型可以通過一次性訓(xùn)練方案，使用同一套模型參數(shù)同時推理不同的多模態(tài)跟蹤任務(wù)。大量實驗表明，UM-ODTrack 在七個可見光跟蹤和五個多模態(tài)跟蹤基準(zhǔn)上取得了優(yōu)異的結(jié)果。期望 ODTrack 和 UM-ODTrack 能成為通用視頻級模態(tài)感知跟蹤的強大基線，激發(fā)可見光跟蹤和多模態(tài)跟蹤領(lǐng)域的進一步研究。

參考文獻

[1] Towards Universal Modal Tracking with Online Dense Temporal Token Learning

原文標(biāo)題 : 頂刊TPAMI 2025！一個模型搞定所有！多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<abbr id="61616"></abbr>

<abbr id="61616"><table id="61616"><optgroup id="61616"></optgroup></table></abbr>