123,123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機器學(xué)習(xí) > 正文

三倍速解決數(shù)據(jù)標(biāo)注大工程，谷歌AI“數(shù)據(jù)標(biāo)注協(xié)助師”亮了

2018-11-01 16:04

來源： OFweek人工智能網(wǎng)

隨著智能系統(tǒng)的普及，深度學(xué)習(xí)和人工智能的不斷崛起，讓科學(xué)界看到了一切事物智能化的可能性。人工智能技術(shù)正被用來處理各類復(fù)雜的事情，然而要完成機器的智能化訓(xùn)練，需要依靠數(shù)量極為龐大的數(shù)據(jù)集。而這些數(shù)據(jù)在用于機器學(xué)習(xí)訓(xùn)練之前，需要先進(jìn)行明確的標(biāo)注，機器只有通過學(xué)習(xí)大量已明確標(biāo)注名稱的數(shù)據(jù)后，才能做到自主識別并進(jìn)一步作決策。

數(shù)據(jù)標(biāo)注：機器的“導(dǎo)師”

機器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的效果常被用來做探索性的實驗，是不可控的。而在實際產(chǎn)品應(yīng)用中，通常使用的是有監(jiān)督學(xué)習(xí)，即用有標(biāo)注的數(shù)據(jù)來作為先驗經(jīng)驗。某種程度上講，帶有標(biāo)注的大量數(shù)據(jù)，就是機器學(xué)習(xí)的指導(dǎo)老師，每一個標(biāo)注的圖像數(shù)據(jù)將會影響到最終的算法結(jié)果。

數(shù)據(jù)標(biāo)注有許多類型，如分類、畫框、注釋、標(biāo)記等等。在進(jìn)行數(shù)據(jù)標(biāo)注之前，首先要對數(shù)據(jù)進(jìn)行清洗，得到符合要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等。常見的幾種數(shù)據(jù)標(biāo)注類型有：分類標(biāo)注、標(biāo)框標(biāo)注、區(qū)域標(biāo)注、描點標(biāo)注等，還有一些需要根據(jù)不同的需求進(jìn)行不同的標(biāo)注。

有多少智能，就有多少人工

隨著數(shù)據(jù)的需求量日益猛增，所需用來完成數(shù)據(jù)標(biāo)注工作的勞動力也隨之高漲。很多知名的科技公司會雇傭大量人力來完成這樣細(xì)碎的任務(wù)，用以支撐機器學(xué)習(xí)。亞馬遜，蘋果，谷歌，微軟等等，他們要么擁有自己的勞務(wù)眾包平臺，例如亞馬遜勞務(wù)眾包平臺“Amazon MechanicalTurk”；要么使用第三方服務(wù)，例如AMT。

而在國內(nèi)，除了有百度旗下類似眾包模式的數(shù)據(jù)平臺-百度眾測，還存在著這樣一套分工流程：上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司，再由中游眾包給下游的小公司、小作坊，有的小作坊還會進(jìn)一步眾包給兼職的自由人士。這條產(chǎn)業(yè)鏈上，隨著層層分包，最終落到最底層的數(shù)據(jù)標(biāo)注師薪酬就低得驚人。

目前的數(shù)據(jù)標(biāo)注工廠，多集中在河北、河南、山東、山西等傳統(tǒng)人力密集企業(yè)的選址偏好的地區(qū)。然而這些數(shù)據(jù)標(biāo)注工廠又被冠以“人工智能行業(yè)的富士康”。為了應(yīng)對龐大的數(shù)據(jù)標(biāo)注需求，標(biāo)注員們必須加班加點盯著電腦屏幕，夜以繼日地重復(fù)枯燥的工作。這些人力為AI產(chǎn)業(yè)提供養(yǎng)料，這是AI金字塔的基礎(chǔ)，處于最底層。

北京和貴陽，便是數(shù)據(jù)標(biāo)注世界里的兩座“雙子星”城市。北京聚集著大量的人工智能公司，不斷地涌出數(shù)據(jù)需求；而貴陽則著力發(fā)展“大數(shù)據(jù)戰(zhàn)略”，以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求。

一名沒有任何經(jīng)驗的標(biāo)注員，半天的培訓(xùn)即可開工，一兩個月之后可變成熟練工，一天就可以完成1500張－2000張圖片的標(biāo)注。然后，這些數(shù)據(jù)會被應(yīng)用到自動駕駛、AI安防、智能身份認(rèn)證等人工智能應(yīng)用領(lǐng)域。在某種程度上，這就意味著AI算法的優(yōu)化，取決于數(shù)據(jù)標(biāo)注的質(zhì)量，而把控這些質(zhì)量的，是完全不懂AI技術(shù)的一群人。

谷歌AI協(xié)助數(shù)據(jù)標(biāo)注，效率提高三倍

前一段時間，谷歌在其AI博客上介紹了一款基于AI和深度學(xué)習(xí)的圖像標(biāo)注方式——“流體標(biāo)注”，它使用機器學(xué)習(xí)來注釋類標(biāo)簽并勾勒出圖片中的每個對象和背景區(qū)域�？勺鳛槿斯�(biāo)注者的有力輔助工具，谷歌聲稱它可以將標(biāo)記數(shù)據(jù)集的速度提高三倍，有望緩解目前機器學(xué)習(xí)研究中，高質(zhì)量的訓(xùn)練數(shù)據(jù)獲取難的瓶頸。

流體標(biāo)注從預(yù)訓(xùn)練的語義分割模型（Mask R-CNN）的輸出開始，該模型生成大約1,000個具有類別標(biāo)簽和置信度分?jǐn)?shù)的圖像片段，其中具有最高置信度的片段將被傳遞給人類工作者以進(jìn)行標(biāo)記。注釋器可以通過儀表板修改圖像，選擇要更正的內(nèi)容和順序，將現(xiàn)有細(xì)分的標(biāo)簽與自動生成的短名單進(jìn)行交換，添加細(xì)分以覆蓋缺失的對象，移除現(xiàn)有細(xì)分或更改重疊細(xì)分的深度順序。

“流體注釋是使圖像注釋更快更容易的第一個探索性步驟，”Google機器感知部門的高級研究科學(xué)家Jasper Uijlings和Vittorio Ferrari在博客文章中寫道。“在未來的工作中，我們的目標(biāo)是改進(jìn)對象邊界的注釋，通過包含更多的機器智能使界面更快，最后擴展界面來處理以前看不見的類，最需要高效的數(shù)據(jù)收集�！�

雖然這種方式尚未落實到具體工作之中，但仍是值得期待的一項技術(shù)。并且在國外，谷歌并不是唯一一個將AI應(yīng)用于數(shù)據(jù)注釋的人。

舊金山創(chuàng)業(yè)公司Scale采用人工數(shù)據(jù)貼標(biāo)機和機器學(xué)習(xí)算法的組合，為Lyft，通用汽車等客戶分類未標(biāo)記的數(shù)據(jù)�？偛课挥谌鸬涞腗apillary 創(chuàng)建了一個街道級圖像數(shù)據(jù)庫，并使用計算機視覺技術(shù)分析這些圖像中包含的數(shù)據(jù)。

以人力助AI，實則本末倒置

“有多少人工智能，就有多少人工�！逼鋵嵾@就是一種本末倒置，原本人工智能是為了方便人們生活，協(xié)助人們工作，提高工作效率，如今卻形成了憑借大量廉價勞動力托起人工智能的局面，當(dāng)國外開始著手于使用AI解放勞動力時，國內(nèi)的人工智能公司是否也應(yīng)該將視線移至最初最源端的數(shù)據(jù)標(biāo)注呢?

用人力堆砌起來的人工智能，永遠(yuǎn)不能稱為真正的人工智能。

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點。刊用本站稿件，務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術(shù)峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网