計算機視覺如何尋找突破口?三維重建或許是一個
又一年ICCV論文提交截止,ICCV2019的官方推特也在上周末第一時間公布了本屆會議的論文投遞情況。根據(jù)官方消息,2019年共收獲4328篇論文,與上一屆2143篇相比,數(shù)量多出了將近一倍。
ICCV由IEEE主辦,全稱為IEEE International Conference on Computer Vision,即國際計算機視覺大會。與計算機視覺模式識別會議CVPR和歐洲計算機視覺會議ECCV并稱計算機視覺三大頂級會議。ICCV論文數(shù)量的翻倍,也能看出近年來計算機視覺的發(fā)展有多么迅猛,無論是國內(nèi)還是國外,都誕生了很多一批專注于計算機視覺的企業(yè),如曠視科技、商湯科技、極鏈科技Video++、依圖科技等優(yōu)秀的初創(chuàng)AI企業(yè),微軟、阿里巴巴、百度等大廠。
計算機視覺的爆發(fā)
1998年到2012年,十幾年來,卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)還是一樣的,但是它的內(nèi)部發(fā)生了很大的變化,而發(fā)生這些變化有亮點非常重要:當下因為深度學習技術(shù)的發(fā)展,人工智能變得愈加火爆,計算機視覺作為人工智能的一個領(lǐng)域,也逐漸被企業(yè)所重視。不過當前計算機視覺的研究和應(yīng)用主要集中在“識別”上,“識別”只是計算機視覺的一部分,如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎(chǔ)上,下一個層次必須走向“三維重建”。
一.英偉達研發(fā)了GPU,GPU最早是為游戲而不是人工智能誕生的。
二.華人學者、斯坦福大學教授李飛飛創(chuàng)建了ImageNet,她把數(shù)百萬張照片發(fā)到了網(wǎng)絡(luò)上并發(fā)動群眾做了標注。
至今,在2012年訓練AlexNet模型需要使用兩塊GPU,花費6天時間,到今天做同樣的事情只需要一塊最新GPU,十幾分鐘就能搞定。
計算機視覺與三維重建
三維重建指對三維物體建立適合計算機表示和處理的數(shù)學模型,是在計算機環(huán)境下對其進行處理、操作和分析其性質(zhì)的基礎(chǔ),也是在計算機中建立表達客觀世界的虛擬現(xiàn)實的關(guān)鍵技術(shù)。
上世紀80年代左右,計算機視覺有了最初的發(fā)展。那個年代基本所有的計算機視覺研究都以D.Marr的研究為理論依據(jù)。他的可計算數(shù)學模型都是以edges為主的邊緣提取。有了edge之后,再把它高層話后的線段元做簡單的統(tǒng)計分類或者三維重建。
它從外部世界的圖像逐步產(chǎn)生對景物的三個層次的描述:
1.初始簡圖:這是最基本意義的灰度變動的局部幾何性質(zhì),以線條勾畫出的草圖形式出現(xiàn)。
2.二維半簡圖:該圖主要描述物體可視面的表面方向和觀察點到表面的距離。
3.三維模型表示:這是物體形狀的全部而清晰的描述。也是D.Marr教授的視覺計算理論對計算機視覺研究的最杰出的貢獻。
當前,每個人都在研究“識別”,但是識別只是計算機視覺的一部分,真正意義上的計算機視覺要超越識別,感知三維環(huán)境,做到交互和感知,就需要把世界恢復到三維。人類可以通過眼睛得到有深度的三維信息,但獲取深度信息的挑戰(zhàn)很大。它本質(zhì)上是一個三角測量的問題,第一步需要將兩幅圖像或兩只眼睛感知到的東西進行匹配,也就是“識別”。但這里的“識別”是有標注情況下的識別,是通過兩幅圖像之間的識別,沒有數(shù)據(jù)庫,不僅要識別物體,還要識別每一個像素,所以對計算機要求非常高。
計算機視覺:機遇與挑戰(zhàn)并存
伴隨著人工智能產(chǎn)業(yè)升溫,計算機視覺行業(yè)有望邁向新的發(fā)展階段。據(jù)專業(yè)機構(gòu)預(yù)測,2016-2020年中國計算機視覺市場將維持20%的增長率,遠高于全球的8.4%平均水平,中國計算機視覺產(chǎn)業(yè)將迎來新一輪爆發(fā)式增長。雖然整個計算機視覺領(lǐng)域迎來了前所未有的關(guān)注和接踵而至的投資熱潮,這些既來自于風險投資、互聯(lián)網(wǎng)公司和傳統(tǒng)公司,還吸引了國家政府前所未有的關(guān)注,但在此過程中,挑戰(zhàn)也依然存在,拋開計算機視覺產(chǎn)業(yè)鏈,上層為基礎(chǔ)支撐層,包括人工智能芯片、算法技術(shù)和數(shù)據(jù)。中層為技術(shù)提供層。下層則是具體的場景應(yīng)用。當前國內(nèi)計算機視覺領(lǐng)域初創(chuàng)公司中,布局中上層的企業(yè)非常少,絕大多數(shù)企業(yè)都只是集中于中下游技術(shù)提供層和場景應(yīng)用層,能打通全產(chǎn)業(yè)鏈的企業(yè)更是鳳毛麟角。
舉幾個已經(jīng)基本達到商業(yè)化的例子:
1.八九十年代的指紋識別算法已經(jīng)非常成熟,在指紋的圖案上面去尋找一些關(guān)鍵點,尋找具有特殊幾何特征的點,然后把兩個指紋的關(guān)鍵點進行比對,判斷是否匹配。
2.2001年基于Haar的人臉檢測算法,在當時的硬件條件下已經(jīng)能夠達到實時人臉檢測,現(xiàn)在手機相機里的人臉檢測,都是基于它或者它的變種。
3.基于HoG特征的物體檢測,它和所對應(yīng)的SVM分類器組合起來的就是著名的DPM算法。DPM算法在物體檢測上超過了所有的算法,取得了不錯的成績。
但這種成功例子太少了,因為手工設(shè)計特征需要大量的經(jīng)驗,需要你對這個領(lǐng)域和數(shù)據(jù)特別了解,然后設(shè)計出來特征還需要大量的調(diào)試工作。另一個難點在于,你不只需要手工設(shè)計特征,還要在此基礎(chǔ)上有一個比較合適的分類器算法。同時設(shè)計特征然后選擇一個分類器,這兩者合并達到最優(yōu)的效果,幾乎很難完成。
小結(jié):
隨著計算機視覺和深度學習的發(fā)展,自動駕駛、生物識別、視頻識別、無人機等都迎來了發(fā)展的浪潮,但這些領(lǐng)域想要達到完全的商業(yè)落地,三維重建或許是一個很好的突破口,但是真正能發(fā)展到何種程度,還是得看企業(yè)對三維重建的重視與利用。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?