機(jī)器也能看圖說話
機(jī)器看到圖像或視頻就能像人類一樣進(jìn)行精準(zhǔn)地表述,這看似不可能,但已在深蘭科學(xué)院誕生的“智慧交通協(xié)管員”,已把它變?yōu)榱爽F(xiàn)實(shí)。
這段視頻的場景就是在城市繁忙的十字路口,尤其上下班高峰,行人違章現(xiàn)象非常多,即使有交警在路口執(zhí)勤也很難做到面面俱到,此時“智慧交通協(xié)管員”將大大發(fā)揮作用。
利用自主研發(fā)的圖像語義識別算法,“智慧交通協(xié)管員”可以實(shí)時識別行人和非機(jī)動車違章行為,可識別的行為包括:
1. 行人闖紅燈; 2. 非機(jī)動車闖紅燈; 3. 非機(jī)動車在逆行; 4. 非機(jī)動車在斑馬線騎行; 5. 非機(jī)動車在人行道騎行;
還可精確描述違章者特征,進(jìn)行語音播報(bào)提醒,識別率可達(dá)80%以上。同時,支持個性化語音定制,可以利用現(xiàn)有的視頻攝像頭資源進(jìn)行人臉識別違章抓拍,方便處罰,還可輔助對接車路協(xié)同系統(tǒng)。
其中涉及到的技術(shù)比較多,概括起來就是視覺理解、認(rèn)知推理、自然語言生成和語音合成。接下來,我們會對其中的關(guān)鍵技術(shù)視覺理解和認(rèn)知推理進(jìn)行展開。
視覺理解+認(rèn)知推理
一、認(rèn)知智能概述
人工智能的發(fā)展可以粗略劃分為三個階段:計(jì)算智能、感知智能和認(rèn)知智能。
計(jì)算智能通俗來說就是計(jì)算機(jī)能存儲、記憶會運(yùn)算,這方面,計(jì)算機(jī)的智能水平早已經(jīng)遠(yuǎn)遠(yuǎn)超過人類。
感知智能就是計(jì)算機(jī)具備類似于人類的視覺和聽覺等方面的能力,比如,聽到了什么,對應(yīng)語音識別;看到了什么,對應(yīng)圖像的分類檢測和語義分割。其中人臉識別就是包含感知智能技術(shù)的一種人工智能應(yīng)用,近年來,隨著深度學(xué)習(xí)技術(shù)在視覺感知領(lǐng)域的蓬勃發(fā)展,目前機(jī)器感知智能的性能已經(jīng)可與人類媲美,甚至在許多場景下已經(jīng)超過人類。
認(rèn)知智能強(qiáng)調(diào)知識、推理等技能,要求機(jī)器能理解、會思考,目前機(jī)器遠(yuǎn)不及人類。從計(jì)算智能到感知智能,標(biāo)志著人工智能走向成熟;從感知智能到認(rèn)知智能,是人工智能質(zhì)的飛躍。認(rèn)知智能,與人的語言、知識、邏輯相關(guān),是人工智能的更高階段,涉及到語義理解、知識表示、小樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)、聯(lián)想推理和自主學(xué)習(xí)等等。相比于計(jì)算智能和感知智能,認(rèn)知智能是更復(fù)雜和更困難的任務(wù),也是未來數(shù)十年最重要的任務(wù)。
二、視覺理解與推理
Image captioning的發(fā)展歷程
1996-2000年 符號規(guī)則方法
追溯到1996年,Gerber發(fā)表了一篇知識表示的論文,限定于交通場景,在圖像序列中用知識表示來進(jìn)行自然語言描述的問題。2010年時,朱松純(S.-C.Zhu)教授團(tuán)隊(duì)首次提出與或圖(And-Or Graph)的模型。進(jìn)一步與 D. Mumford 合作進(jìn)行了框架的完善,融入隨機(jī)上下文相關(guān)語法(Stochastic Context Sensitive Grammar),能對復(fù)雜物體的多層次構(gòu)造特性(Hierarchical Compositionality)建模,完全表示圖像語法(Image Grammar)。
與或圖表示突破了傳統(tǒng)單一模板(Template)的表示方法,對每類物體用多個圖結(jié)構(gòu)表示,該結(jié)構(gòu)可以通過語法(Grammar)、產(chǎn)生規(guī)則(Production Rule)進(jìn)行動態(tài)調(diào)制,從而可以用相對小的視覺字典(Visual Vocabulary),表達(dá)大量類間結(jié)構(gòu)變化很大的物體的圖像表現(xiàn)形式(Configuration)。
這些方法實(shí)際上都基于邏輯體系和規(guī)則的系統(tǒng),對圖像的內(nèi)容設(shè)計(jì)很多規(guī)則,繼而產(chǎn)生自然語言描述。由于強(qiáng)依賴于手工定制,人工特征工程的工作量就非常大,這也是當(dāng)時亟待改善的問題。
2011-2013年 無明顯進(jìn)展
2014年至今 深度學(xué)習(xí)方法等
2014年,谷歌的Oriol Vinyals 等人公開論文《Show and Tell: A Neural Image Caption Generator》,并發(fā)表于2015年CVPR,開了深度學(xué)習(xí)在Image captioning中使用的先河。該方法來源于以前的機(jī)器翻譯。
輸入圖形后,深度卷積神經(jīng)網(wǎng)絡(luò)對圖形特征進(jìn)行提取,通過固定長度矢量形成輸入(Input)進(jìn)入循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),經(jīng)過一系列訓(xùn)練后,輸出一段描述性的自然語言文字。按照時間序列的順序,逐個詞進(jìn)行輸出,條件依附于之前的詞。
使用如下公式最大化給定圖像的正確描述概率:
Encoding-Decoding 靈感來源于翻譯模型。
基于更復(fù)雜的視覺特征提取模型的Image Captioning。其中利用人的常識構(gòu)建了一個知識庫(ConceptNet),然后把它加入Encoding-Decoding模型里,賦予模型一定程度的常識能力。我們一直希望機(jī)器能有所謂的認(rèn)知智能,實(shí)際上就是希望機(jī)器能夠像人一樣具有常識。

最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 封殺AI“照騙”,“淘寶們”終于不忍了?
- 9 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?
- 10 地平線自動駕駛方案解讀