三倍速解決數(shù)據(jù)標注大工程,谷歌AI“數(shù)據(jù)標注協(xié)助師”亮了
隨著智能系統(tǒng)的普及,深度學習和人工智能的不斷崛起,讓科學界看到了一切事物智能化的可能性。人工智能技術正被用來處理各類復雜的事情,然而要完成機器的智能化訓練,需要依靠數(shù)量極為龐大的數(shù)據(jù)集。而這些數(shù)據(jù)在用于機器學習訓練之前,需要先進行明確的標注,機器只有通過學習大量已明確標注名稱的數(shù)據(jù)后,才能做到自主識別并進一步作決策。
數(shù)據(jù)標注:機器的“導師”
機器學習分為有監(jiān)督學習和無監(jiān)督學習。無監(jiān)督學習的效果常被用來做探索性的實驗,是不可控的。而在實際產(chǎn)品應用中,通常使用的是有監(jiān)督學習,即用有標注的數(shù)據(jù)來作為先驗經(jīng)驗。某種程度上講,帶有標注的大量數(shù)據(jù),就是機器學習的指導老師,每一個標注的圖像數(shù)據(jù)將會影響到最終的算法結果。
數(shù)據(jù)標注有許多類型,如分類、畫框、注釋、標記等等。在進行數(shù)據(jù)標注之前,首先要對數(shù)據(jù)進行清洗,得到符合要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等。常見的幾種數(shù)據(jù)標注類型有:分類標注、標框標注、區(qū)域標注、描點標注等,還有一些需要根據(jù)不同的需求進行不同的標注。
有多少智能,就有多少人工
隨著數(shù)據(jù)的需求量日益猛增,所需用來完成數(shù)據(jù)標注工作的勞動力也隨之高漲。很多知名的科技公司會雇傭大量人力來完成這樣細碎的任務,用以支撐機器學習。亞馬遜,蘋果,谷歌,微軟等等,他們要么擁有自己的勞務眾包平臺,例如亞馬遜勞務眾包平臺“Amazon MechanicalTurk”;要么使用第三方服務,例如AMT。
而在國內(nèi),除了有百度旗下類似眾包模式的數(shù)據(jù)平臺-百度眾測,還存在著這樣一套分工流程:上游的科技巨頭把任務交給中游的數(shù)據(jù)標注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會進一步眾包給兼職的自由人士。這條產(chǎn)業(yè)鏈上,隨著層層分包,最終落到最底層的數(shù)據(jù)標注師薪酬就低得驚人。
目前的數(shù)據(jù)標注工廠,多集中在河北、河南、山東、山西等傳統(tǒng)人力密集企業(yè)的選址偏好的地區(qū)。然而這些數(shù)據(jù)標注工廠又被冠以“人工智能行業(yè)的富士康”。為了應對龐大的數(shù)據(jù)標注需求,標注員們必須加班加點盯著電腦屏幕,夜以繼日地重復枯燥的工作。這些人力為AI產(chǎn)業(yè)提供養(yǎng)料,這是AI金字塔的基礎,處于最底層。
北京和貴陽,便是數(shù)據(jù)標注世界里的兩座“雙子星”城市。北京聚集著大量的人工智能公司,不斷地涌出數(shù)據(jù)需求;而貴陽則著力發(fā)展“大數(shù)據(jù)戰(zhàn)略”,以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求。
一名沒有任何經(jīng)驗的標注員,半天的培訓即可開工,一兩個月之后可變成熟練工,一天就可以完成1500張-2000張圖片的標注。然后,這些數(shù)據(jù)會被應用到自動駕駛、AI安防、智能身份認證等人工智能應用領域。在某種程度上,這就意味著AI算法的優(yōu)化,取決于數(shù)據(jù)標注的質(zhì)量,而把控這些質(zhì)量的,是完全不懂AI技術的一群人。
谷歌AI協(xié)助數(shù)據(jù)標注,效率提高三倍
前一段時間,谷歌在其AI博客上介紹了一款基于AI和深度學習的圖像標注方式——“流體標注”,它使用機器學習來注釋類標簽并勾勒出圖片中的每個對象和背景區(qū)域?勺鳛槿斯俗⒄叩挠辛o助工具,谷歌聲稱它可以將標記數(shù)據(jù)集的速度提高三倍,有望緩解目前機器學習研究中,高質(zhì)量的訓練數(shù)據(jù)獲取難的瓶頸。
流體標注從預訓練的語義分割模型(Mask R-CNN)的輸出開始,該模型生成大約1,000個具有類別標簽和置信度分數(shù)的圖像片段,其中具有最高置信度的片段將被傳遞給人類工作者以進行標記。注釋器可以通過儀表板修改圖像,選擇要更正的內(nèi)容和順序,將現(xiàn)有細分的標簽與自動生成的短名單進行交換,添加細分以覆蓋缺失的對象,移除現(xiàn)有細分或更改重疊細分的深度順序。
“流體注釋是使圖像注釋更快更容易的第一個探索性步驟,”Google機器感知部門的高級研究科學家Jasper Uijlings和Vittorio Ferrari在博客文章中寫道!霸谖磥淼墓ぷ髦,我們的目標是改進對象邊界的注釋,通過包含更多的機器智能使界面更快,最后擴展界面來處理以前看不見的類,最需要高效的數(shù)據(jù)收集!
雖然這種方式尚未落實到具體工作之中,但仍是值得期待的一項技術。并且在國外,谷歌并不是唯一一個將AI應用于數(shù)據(jù)注釋的人。
舊金山創(chuàng)業(yè)公司Scale采用人工數(shù)據(jù)貼標機和機器學習算法的組合,為Lyft,通用汽車等客戶分類未標記的數(shù)據(jù)?偛课挥谌鸬涞腗apillary 創(chuàng)建了一個街道級圖像數(shù)據(jù)庫,并使用計算機視覺技術分析這些圖像中包含的數(shù)據(jù)。
以人力助AI,實則本末倒置
“有多少人工智能,就有多少人工!逼鋵嵾@就是一種本末倒置,原本人工智能是為了方便人們生活,協(xié)助人們工作,提高工作效率,如今卻形成了憑借大量廉價勞動力托起人工智能的局面,當國外開始著手于使用AI解放勞動力時,國內(nèi)的人工智能公司是否也應該將視線移至最初最源端的數(shù)據(jù)標注呢?
用人力堆砌起來的人工智能,永遠不能稱為真正的人工智能。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?