攻陷無(wú)人區(qū):百度大腦破解了這個(gè)應(yīng)用頑疾
人與機(jī)器之間,有太多秘密隱藏在未知以下。
比如說(shuō)AI帶來(lái)的語(yǔ)義理解與語(yǔ)音喚醒式人機(jī)交互,雖然被大家說(shuō)的很神,但其實(shí)有大量難關(guān)沒(méi)有被攻破。AI語(yǔ)音交互,往往還以來(lái)初級(jí)的符碼轉(zhuǎn)化和模塊調(diào)用,真正讓機(jī)器像人一樣去理解世界,還有很長(zhǎng)的路要走。
好在對(duì)人機(jī)交互深層秘密的探索,在今天并沒(méi)有停步。一些全新的技術(shù)應(yīng)用化,正在加強(qiáng)人與機(jī)器如何交流、協(xié)作甚至相互理解的無(wú)盡可能。
在剛剛的百度AI開(kāi)發(fā)者大會(huì)中,一個(gè)重磅升級(jí)是百度大腦升級(jí)了3.0版本。這次升級(jí)之所以引人注目,是因?yàn)槠湓跇I(yè)界首次提出了“多模態(tài)深度語(yǔ)義理解”。
多模態(tài)、深度語(yǔ)義理解,這些都是我們經(jīng)常在AI論文中看到的名詞,但似乎從來(lái)沒(méi)有科技巨頭把這個(gè)詞作為關(guān)鍵信息進(jìn)行產(chǎn)業(yè)披露。這是為什么?
其中的隱藏信息,是人機(jī)交互通往多模態(tài)結(jié)合、深度轉(zhuǎn)譯之路上,一座難以翻越的高峰。
多模態(tài)深度語(yǔ)義理解技術(shù),就像一個(gè)沉睡的沙漏一樣,始終隱藏在細(xì)沙之下,讓人難以見(jiàn)到真正的應(yīng)用魅力。而百度大腦的3.0升級(jí),似乎將這個(gè)沉睡經(jīng)年的沙漏倒轉(zhuǎn)了過(guò)來(lái),最神秘的AI領(lǐng)域,開(kāi)始在技術(shù)沙粒的流逝間展露了本來(lái)面目。
人機(jī)交互的秘密:AI界有個(gè)雪域高原
20世紀(jì)上半葉,社會(huì)符號(hào)學(xué)提出了模態(tài)分析的話語(yǔ)批判方式,而后模態(tài)理論逐步走入各個(gè)學(xué)科,成為自然科學(xué)、計(jì)算機(jī)科學(xué)與人文科學(xué)的重要三岔口之一。而在自然語(yǔ)言處理成為AI重鎮(zhèn)之后,多模態(tài)話語(yǔ)融合也開(kāi)始被AI思想家們提上了日程。
我們知道,AI進(jìn)行語(yǔ)音交互時(shí)的基本邏輯,是要把一切語(yǔ)音進(jìn)行識(shí)別,轉(zhuǎn)化為文字符碼再進(jìn)行文本理解。而語(yǔ)音理解與視覺(jué)、傳感相關(guān)的模態(tài)融合更是難上加難,堪稱人機(jī)交互進(jìn)程中的“高海拔地帶”。
但我們不妨思考一下,人的思維方式其實(shí)并不是單一模態(tài)的信息轉(zhuǎn)化。而是五感并用,語(yǔ)音語(yǔ)義一體化理解,無(wú)間隙給出交流反應(yīng)。
換言之,機(jī)器最接近人的交流方式,就是多模態(tài)輸入與融合化的語(yǔ)義理解。而類似自然交互的技術(shù)難點(diǎn),在于不同模態(tài)的視覺(jué)、語(yǔ)音、語(yǔ)音、傳感信號(hào),是構(gòu)建在完全不同的數(shù)據(jù)編碼之上的。整合與再學(xué)習(xí)始終都是AI領(lǐng)域的難點(diǎn),尤其是應(yīng)用領(lǐng)域的難點(diǎn)。
價(jià)值極大,難度極高,把多模態(tài)深度語(yǔ)義理解堆積成了AI領(lǐng)域的雪域高原。無(wú)數(shù)開(kāi)發(fā)者都在翹首以盼先導(dǎo)者能夠翻越這座大山。
在這次百度AI開(kāi)發(fā)者大會(huì)上,百度大腦非常自信地將升級(jí)矛頭對(duì)準(zhǔn)了這個(gè)最神秘的AI沙漏。主打多模態(tài)深度語(yǔ)義理解技術(shù)的底層開(kāi)發(fā),可謂打開(kāi)了通往無(wú)盡技術(shù)應(yīng)用與難預(yù)測(cè)上線的AI大門。
技術(shù)乘法:多模態(tài)深度語(yǔ)義理解的應(yīng)用流沙效應(yīng)
多模態(tài)深度語(yǔ)義理解之所以重要,從應(yīng)用的角度看,是因?yàn)樗岩曈X(jué)、語(yǔ)音、語(yǔ)義、傳感,以及泛深度學(xué)習(xí)類交互整合到了一起,讓技術(shù)間不再是并行的通道,而是打開(kāi)了彼此融合的想象之門,并且在利用深度學(xué)習(xí)技術(shù),強(qiáng)化了語(yǔ)義理解的精準(zhǔn)度與容納范疇,視線了語(yǔ)音語(yǔ)義的一體化融合。可以想見(jiàn)的是,多模態(tài)深度語(yǔ)義理解,將會(huì)在技術(shù)突破之后帶來(lái)大量的眼神技術(shù)與子應(yīng)用,從而改變我們對(duì)AI識(shí)別、語(yǔ)音控制、人機(jī)交互的邊界認(rèn)識(shí)。
或許從此以后,AI技術(shù)將不僅僅是做加法,更有可能產(chǎn)生技術(shù)細(xì)節(jié)之間的乘法效應(yīng)。從百度大腦3.0公布的技術(shù)案例,我們已經(jīng)可以看出類似乘法效應(yīng):
在AI開(kāi)發(fā)者大會(huì)期間,對(duì)多模態(tài)深度語(yǔ)義理解技術(shù)最直接的感受,在于技術(shù)能力突破之后應(yīng)用邊界的想象力爆棚。
比如說(shuō)百度大腦3.0帶來(lái)的視覺(jué)語(yǔ)義化技術(shù),可以讓機(jī)器從看清到看懂視頻的內(nèi)容。比如在新零售場(chǎng)景中,攝像頭可以通過(guò)視頻語(yǔ)義化來(lái)直接理解顧客的行為動(dòng)作,以及選取了哪些商品。這樣就無(wú)需再有復(fù)雜的識(shí)別條碼、刷臉等流程,顧客可以真正的拿起商品就走,產(chǎn)生毫無(wú)時(shí)間影響的購(gòu)物體驗(yàn)。
另一個(gè)多模態(tài)深度語(yǔ)義理解的技術(shù)應(yīng)用,是語(yǔ)音語(yǔ)義一體化帶來(lái)的。在使用語(yǔ)音導(dǎo)航長(zhǎng)Query時(shí),我們經(jīng)常要簡(jiǎn)單明了的說(shuō)清楚導(dǎo)航目標(biāo),但假如我們的導(dǎo)航需求比較復(fù)雜,或者我們也不太清楚具體的地名,那就會(huì)很麻煩。導(dǎo)航中的AI識(shí)別只能進(jìn)行文本喚醒,無(wú)法去理解使用者的想法。
在百度開(kāi)發(fā)者大會(huì)現(xiàn)場(chǎng),我們已經(jīng)見(jiàn)識(shí)到在語(yǔ)音語(yǔ)義一體化技術(shù)加持后,百度地圖的用戶可以像繞口令一樣說(shuō)出大量?jī)?nèi)容,百度大腦會(huì)同步聽(tīng)清、聽(tīng)懂和理解相關(guān)含義,給出最佳導(dǎo)航路線。
類似的案例還有很多,從中我們可以發(fā)現(xiàn),多模態(tài)深度語(yǔ)義理解讓AI技術(shù)沙漏中的每一顆沙子,都可以排列組合出未知中的驚喜。
戳破最后隔膜:百度大腦3.0的3件禮物
當(dāng)開(kāi)發(fā)者想要從傳統(tǒng)AI賽道,進(jìn)入神秘的深層人機(jī)交互,需要的并不是高屋建瓴的設(shè)想,也不是多么科幻的技術(shù)示范。而是腳踏實(shí)地,真正建立可以按部就班展開(kāi)學(xué)習(xí)、嘗試與創(chuàng)造的多模態(tài)AI路徑。而百度大腦的3.0升級(jí),帶來(lái)了多模態(tài)世界的3個(gè)禮物,可以說(shuō)是帶給開(kāi)發(fā)者的核心保障:
1、告別算力問(wèn)題的“昆侖”:在AI開(kāi)發(fā)者大會(huì)上,百度大腦3.0首次將芯片納入技術(shù)體系,推出了百度自主研發(fā)的中國(guó)第一款云端全功能AI芯片“昆侖”。據(jù)了解,昆侖的AI任務(wù)處理速度比此前我們常用的FPGA方案快30倍以上。高性能、高性價(jià)比,且具有易用性的云端AI芯片,可以與百度的整體AI技術(shù)體系結(jié)合,帶給百度大腦的用戶與開(kāi)發(fā)者更多想象力。
2、跳躍的PaddlePaddle:在今年的開(kāi)發(fā)者大會(huì)上,百度公布了PaddlePaddle3.0,在與自主芯片結(jié)合,打造全棧解決方案和平臺(tái)化建設(shè)之余,新的PaddlePaddle還開(kāi)放了多種平臺(tái),為不同層級(jí)的開(kāi)發(fā)者提供更簡(jiǎn)單的開(kāi)發(fā)與訓(xùn)練。其中AutoDL可以自動(dòng)地進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì);AIStudio是一個(gè)非常實(shí)用的在線訓(xùn)練平臺(tái)。靈活利用更加富有生態(tài)化意味的PaddlePaddle,開(kāi)發(fā)者的工作或?qū)⒌玫椒旄驳氐淖兓?/p>
3、便捷獲取AI的開(kāi)發(fā)者權(quán)能:開(kāi)發(fā)者另一個(gè)核心需求,是有足夠多的技術(shù)應(yīng)用支撐,來(lái)滿足天馬行空的想象力。假如只有高度抽象,雷同程度很高的技術(shù)開(kāi)放,那么大家很難找到自己的開(kāi)發(fā)機(jī)會(huì),尤其是在多模態(tài)語(yǔ)義理解帶來(lái)的全新契機(jī)面前。而百度大腦3.0全面開(kāi)放了110多項(xiàng)AI能力,滿足了開(kāi)發(fā)者的技術(shù)拼圖需求。李彥宏在開(kāi)發(fā)者大會(huì)的開(kāi)場(chǎng)白中說(shuō),百度的目標(biāo)是EveryoneCanAI。那么百度大腦的技術(shù)拼圖和全棧架構(gòu),將是百度分享AI,建立開(kāi)發(fā)者權(quán)能的必經(jīng)之地。
百度大腦的升級(jí),可以看做眾多AI應(yīng)用核心的突破。未來(lái)無(wú)數(shù)令人驚喜的AI應(yīng)用,都將建立在百度大腦的躍升之上。當(dāng)多模態(tài)底層技術(shù)不再是奢望,高度擬真的人機(jī)交互也就不再遙遠(yuǎn)。從百度大腦3.0開(kāi)始,一個(gè)沙漏已經(jīng)倒轉(zhuǎn),趨于理論最高值的AI未來(lái),正在快速向這個(gè)世界挺進(jìn)。(作者:腦極體)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?