訂閱
糾錯(cuò)
加入自媒體

自動(dòng)駕駛攝像頭為什么很難處理純色背景場景?

在自動(dòng)駕駛技術(shù)的感知體系中,攝像頭一直被視為復(fù)刻人類視覺能力的核心組件。這種傳感器通過捕捉環(huán)境光線并將其轉(zhuǎn)化為像素矩陣,為車輛提供識別交通標(biāo)志、車道線以及其他交通參與者的基礎(chǔ)。然而,在實(shí)際的駕駛場景中,攝像頭經(jīng)常會(huì)遭遇一種極其棘手的情況,那就是面對如一堵粉刷平整的白墻、一輛橫向行駛的白色大型貨車,或是一片晴朗無云的藍(lán)天等大面積的純色、無紋理背景。在這種環(huán)境下,原本高度智能的視覺算法會(huì)出現(xiàn)性能驟降,甚至完全失去對前方障礙物的感知能力。

計(jì)算機(jī)是如何“看”世界的?

要理解為什么攝像頭難以識別純色背景,首先需要知道計(jì)算機(jī)是如何“看”世界的。與人類大腦能夠基于常識理解“這是一塊平整的墻面”不同,計(jì)算機(jī)視覺系統(tǒng)必須通過尋找圖像中的特征點(diǎn)構(gòu)建對場景的認(rèn)知。這些特征點(diǎn)通常是圖像中如角點(diǎn)、邊緣或特定的紋理模式等亮度變化劇烈的區(qū)域。在紋理豐富的場景中,算法可以從樹木的枝葉、路面的裂紋或建筑的窗戶中提取出成千上萬個(gè)具有唯一性的數(shù)學(xué)描述符。這些描述符使系統(tǒng)能夠在連續(xù)的視頻幀之間追蹤物體,或者在雙目相機(jī)的左右圖像中找到同一個(gè)物理點(diǎn)的對應(yīng)位置。

當(dāng)攝像頭面對純色背景時(shí),圖像中的像素點(diǎn)呈現(xiàn)出的是極高的齊次性,這意味著在相當(dāng)大的區(qū)域內(nèi),像素的亮度值和顏色值幾乎完全一致,這種場景的紋理強(qiáng)度極低。在很多技術(shù)中,常用灰度共生矩陣來定量描述這種空間分布的特性。通過計(jì)算同質(zhì)性、能量、相關(guān)性和對比度等指標(biāo),可以發(fā)現(xiàn)純色背景在能量和同質(zhì)性上表現(xiàn)極高,但在對比度和差異性上幾乎為零。這種極端的數(shù)據(jù)分布直接導(dǎo)致特征提取算子失效。無論是SIFT算法還是SURF算法,它們的設(shè)計(jì)初衷都是尋找梯度的變化。當(dāng)一個(gè)區(qū)域內(nèi)所有方向的梯度都趨近于零時(shí),算法將無法提取到任何有效的關(guān)鍵點(diǎn)。

這種特征點(diǎn)的缺失會(huì)迅速引發(fā)連鎖反應(yīng),首當(dāng)其沖的就是“對應(yīng)關(guān)系問題”。在自動(dòng)駕駛的深度估計(jì)中,無論是雙目視覺還是多視圖幾何,其核心都是通過計(jì)算視差來推斷距離。系統(tǒng)需要在兩張具有微小視差的圖像中找到相同的特征,然后通過三角形測量原理計(jì)算出物體到攝像頭的距離。如果圖像中只有一片純白的畫面,系統(tǒng)將無法確定左圖中某個(gè)像素點(diǎn)對應(yīng)右圖中的哪一個(gè)位置。這種匹配歧義會(huì)導(dǎo)致深度圖在這些區(qū)域產(chǎn)生大量的空洞或錯(cuò)誤噪聲點(diǎn)。由于系統(tǒng)無法在純色物體上建立可靠的對應(yīng)關(guān)系,它可能錯(cuò)誤地認(rèn)為前方是一片虛無的空曠區(qū)域,或者是將極遠(yuǎn)處的背景信息錯(cuò)誤地投影到了近處的物體上。

此外,這種危機(jī)在運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)和視覺里程計(jì)(VO)中同樣存在。自動(dòng)駕駛車輛依靠追蹤場景中的靜態(tài)特征來估計(jì)自身的位移和姿態(tài)變化。當(dāng)車輛進(jìn)入一個(gè)像是地下車庫等充滿無紋理白墻和立柱的環(huán)境時(shí),SfM會(huì)因?yàn)闊o法建立跨幀的特征對應(yīng)而導(dǎo)致跟蹤丟失。這種感知能力的“失明”對于依賴視覺定位的系統(tǒng)來說是致命的,因?yàn)樗苯觿儕Z了車輛感知自身運(yùn)動(dòng)和周圍幾何結(jié)構(gòu)的能力。

純色區(qū)域在數(shù)學(xué)建模中的問題

純色背景帶來的挑戰(zhàn)不僅停留在靜態(tài)特征的提取上,它還深深扎根于動(dòng)態(tài)感知所需的數(shù)學(xué)模型中。光流(Optical Flow)是自動(dòng)駕駛系統(tǒng)感知物體運(yùn)動(dòng)矢量的重要手段,其核心假設(shè)是“亮度恒定”,即圖像中某個(gè)物理點(diǎn)在運(yùn)動(dòng)過程中,其像素亮度值保持不變;谶@一假設(shè),我們可以得到基本的光流約束方程:Ixu+Iyv+It=0,其中Ix,Iy是圖像的空間梯度,It是隨時(shí)間變化的亮度梯度,而(u,v) 是我們要求解的像素運(yùn)動(dòng)速度。

在純色或紋理極其稀疏的區(qū)域,由于亮度分布非常均勻,圖像的空間梯度Ix和Iy幾乎全部為零。從代數(shù)角度看,這導(dǎo)致了一個(gè)“病態(tài)問題”,我們只有一個(gè)包含兩個(gè)未知數(shù)(u,v)的線性方程,且系數(shù)項(xiàng)趨近于零。在這種情況下,方程將有無數(shù)個(gè)解,或者說解對于噪聲極其敏感。在物理上,這表現(xiàn)為“孔徑問題”。即當(dāng)一個(gè)純色的邊緣移動(dòng)時(shí),如果觀察范圍受限,系統(tǒng)只能感知到垂直于邊緣方向的運(yùn)動(dòng),而無法感知平行于邊緣方向的運(yùn)動(dòng)分量。如果整個(gè)區(qū)域連邊緣都沒有,即完全的純色,那么系統(tǒng)將無法判斷物體是否在移動(dòng)。

這種數(shù)學(xué)上的不確定性迫使算法需引入額外的正則化約束,例如假設(shè)光流場是全局平滑的。像是Horn-Schunck方法就是通過最小化包含平滑項(xiàng)的能量泛函來強(qiáng)制生成稠密的光流圖。然而,在處理大面積純色背景時(shí),這種平滑假設(shè)會(huì)產(chǎn)生誤導(dǎo)。算法可能會(huì)將有紋理區(qū)域(如路面)的運(yùn)動(dòng)趨勢錯(cuò)誤地傳播到純色區(qū)域(如白色車身),從而產(chǎn)生虛假的運(yùn)動(dòng)估計(jì)。這種“虛假感知”在復(fù)雜的交通流量中極其危險(xiǎn),因?yàn)樗赡軐?dǎo)致自動(dòng)駕駛決策層誤判障礙物的實(shí)際速度和軌跡。

純色背景一般是如墻壁或大型車輛的側(cè)面等平面幾何結(jié)構(gòu),在多視圖幾何中,平面上的點(diǎn)滿足單應(yīng)性矩陣(Homography)變換,即x'=Hx。單應(yīng)性描述了兩個(gè)視圖之間平面的投影關(guān)系,具有8個(gè)自由度。雖然單應(yīng)性矩陣可以用來對平面進(jìn)行重構(gòu),但前提依然是必須在平面上找到足夠的對應(yīng)點(diǎn)對。當(dāng)平面完全純色時(shí),單應(yīng)性矩陣的解算會(huì)變得極不穩(wěn)定。任何微小的像素噪聲都會(huì)導(dǎo)致重構(gòu)出來的平面發(fā)生劇烈的偏轉(zhuǎn)或產(chǎn)生錯(cuò)誤的距離估計(jì)。這種幾何重構(gòu)的失敗,使得攝像頭難以精確計(jì)算出與大型純色物體(如橫向擋在路中間的白色貨車)之間的物理距離,從而無法及時(shí)觸發(fā)緊急制動(dòng)。

物理環(huán)境中的光影挑戰(zhàn)與傳感器極限

理論上的數(shù)學(xué)難題在復(fù)雜的真實(shí)駕駛環(huán)境中會(huì)被物理因素放大,攝像頭的成像質(zhì)量極大地依賴于光照條件和物體的表面材質(zhì)。自動(dòng)駕駛中一個(gè)常見的假設(shè)是“朗伯反射”,即假設(shè)物體表面是粗糙的啞光面,能夠?qū)⑷肷涔庀蚋鱾(gè)方向均勻散射。然而,像是白色烤漆的車身、光滑的建筑物外墻或反光的金屬表面等很多純色物體,都具有顯著的鏡面反射特性。

鏡面反射會(huì)在物體表面產(chǎn)生眩光和熱點(diǎn),這些高亮區(qū)域?qū)τ跀z像頭來說就是失去細(xì)節(jié)的“純白色塊”。在這種過曝光的區(qū)域,原本可能存在的微弱紋理會(huì)被傳感器的飽和電流徹底淹沒。當(dāng)強(qiáng)烈的陽光直射在白色大貨車側(cè)面時(shí),該表面在攝像頭畫面中呈現(xiàn)出的亮度和顏色可能與背景中過曝的天空完全一致。這種極低對比度的環(huán)境使得基于像素差異的感知系統(tǒng)徹底癱瘓。2016年在美國佛羅里達(dá)州發(fā)生的特斯拉Autopilot事故,正是由于系統(tǒng)未能分辨出陽光下白色的拖車側(cè)面與明亮的天空背景,導(dǎo)致車輛在未采取任何減速措施的情況下直接撞擊了貨車。

傳感器的信噪比(SNR)也是限制其處理低對比度純色場景的關(guān)鍵物理因素。在亮度極其均勻的區(qū)域,圖像中的微小波動(dòng)往往不是來自物體的真實(shí)特征,而是來自傳感器的散粒噪聲和熱噪聲。對于圖像處理算法而言,這些噪聲會(huì)被誤認(rèn)為是微弱的紋理,從而產(chǎn)生雜亂無章的虛假特征點(diǎn)。當(dāng)環(huán)境光較暗或?qū)Ρ榷葮O低時(shí),有用信號將淹沒在噪聲中,SNR將顯著下降,系統(tǒng)對物體邊界的提取能力會(huì)變得極其微弱。軟件層面的降噪算法雖然可以平滑圖像,但代價(jià)往往是模糊了原本就難以察覺的微弱對比度邊界,這進(jìn)一步加劇了識別的難度。

此外,材質(zhì)的反射屬性還會(huì)隨著觀察角度的變化而發(fā)生劇變。對于人類駕駛員來說,我們可以通過偏振現(xiàn)象或環(huán)境倒影識別出光滑表面的存在,但現(xiàn)有的自動(dòng)駕駛攝像頭大多缺乏捕獲這些高級物理特性的能力。

純色背景下的陰影處理也是一個(gè)難題。在缺乏紋理的白色墻面上,陰影具有極其清晰的人造邊緣,算法極易將這些由光照產(chǎn)生的臨時(shí)邊緣誤認(rèn)為是物理實(shí)體的邊界,從而在建圖和定位時(shí)引入嚴(yán)重的拓?fù)溴e(cuò)誤。

從主動(dòng)探測到全局注意力機(jī)制的演進(jìn)

既然攝像頭在處理純色背景時(shí)存在難以逾越的天然障礙,很多技術(shù)方案開始轉(zhuǎn)向多維度、跨領(lǐng)域的感知增強(qiáng)方案。目前最主流的路徑是打破“被動(dòng)視覺”的局限,引入具有主動(dòng)探測能力的傳感器。

激光雷達(dá)(LiDAR)是應(yīng)對純色背景最有效的武器之一。由于激光雷達(dá)不依賴環(huán)境光,而是通過發(fā)射近紅外激光并接收回波來測量距離,它對物體的顏色和表面紋理完全免疫。攝像頭看來是一片虛無白墻的場景,在激光雷達(dá)的原始點(diǎn)云中卻能呈現(xiàn)出精確的平面幾何結(jié)構(gòu)。這種幾何信息的引入,為視覺感知提供了一個(gè)堅(jiān)實(shí)的“地基”,使得系統(tǒng)即便在圖像特征缺失的情況下,依然能夠通過多傳感器融合確認(rèn)障礙物的存在。

另一種在視覺系統(tǒng)內(nèi)部進(jìn)行的改進(jìn)是引入“主動(dòng)雙目視覺”。通過在攝像頭組件中集成一個(gè)紅外圖案投影儀,系統(tǒng)可以向原本無紋理的純色表面投射特殊的隨機(jī)散斑圖案。這些人為制造的散斑在攝像頭畫面中將形成豐富的“偽紋理”,從而讓匹配算法能夠在原本無法識別的白墻或純色板材上找到對應(yīng)的特征點(diǎn)。這種技術(shù)已經(jīng)在室內(nèi)物流機(jī)器人和部分高級乘用車中得到了應(yīng)用,極大地提升了系統(tǒng)在極簡裝修環(huán)境下的三維建模能力。

在極端惡劣天氣或光照條件下,門控成像技術(shù)展現(xiàn)出了巨大的潛力。該技術(shù)利用高速脈沖激光和同步快門,通過在時(shí)間軸上對光線進(jìn)行“切片”,只保留特定距離范圍內(nèi)的反射信號。這不僅能有效濾除雨霧產(chǎn)生的反向散射,還能在成像時(shí)極大增強(qiáng)物體的輪廓對比度。即使在面對純色物體時(shí),門控成像也能通過距離切片的邊緣識別出物體的三維形貌,而不會(huì)像普通攝像頭那樣受限于表面的顏色分布。

此外,感知算法也正在從依賴局部特征的卷積神經(jīng)網(wǎng)絡(luò)(CNN)向具備全局建模能力的視覺Transformer演進(jìn)。CNN的核心操作是局部卷積核,這意味著它只能看到一個(gè)很小的像素窗口。如果這個(gè)窗口內(nèi)全是白色,CNN將無法提取任何有意義的信息。而Transformer利用自注意力機(jī)制,能夠捕捉整張圖像中的長程依賴關(guān)系。即便某個(gè)局部區(qū)域是純色的,Transformer也可以根據(jù)該區(qū)域與遠(yuǎn)處路面、天空、交通燈或其他已知紋理區(qū)域的相對位置關(guān)系,通過全局上下文信息推斷出該區(qū)域的語義屬性。這種從“局部看圖”到“全局看場”的轉(zhuǎn)變,為解決純色背景下的感知缺失提供了軟件層面的可能性。

最后的話

自動(dòng)駕駛攝像頭在純色背景下的問題,是算法特征依賴與物理成像極限共同作用的結(jié)果。雖然這種“視覺荒漠”曾導(dǎo)致嚴(yán)重的事故,但隨著主動(dòng)傳感器的普及以及深度學(xué)習(xí)架構(gòu)從局部特征向全局語義的跨越,自動(dòng)駕駛系統(tǒng)正在構(gòu)建更加魯棒的多維感知網(wǎng)絡(luò)。未來的感知系統(tǒng)將不再僅僅是被動(dòng)地接收圖像,而是能夠像人類一樣,通過主動(dòng)探索和全局邏輯推理,在純色背景中準(zhǔn)確地洞察危險(xiǎn)。這不僅需要更先進(jìn)的硬件,更需要在數(shù)學(xué)模型層面實(shí)現(xiàn)從“像素匹配”到“語義理解”的提升。

-- END --

       原文標(biāo)題 : 自動(dòng)駕駛攝像頭為什么很難處理純色背景場景?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號