123,123,123

<strong id="1lzrn"><center id="1lzrn"></center></strong>

<option id="1lzrn"><strike id="1lzrn"></strike></option>

當(dāng)前位置： OFweek 安防網(wǎng) > 視頻處理/顯示 > 正文

AI基礎(chǔ)設(shè)施革命：關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考

2020-06-10 11:28

將門創(chuàng)投

流動(dòng)中的數(shù)據(jù)價(jià)值挖掘 V．S．隱私保護(hù)

— 數(shù)據(jù)擁有者的控制力數(shù)據(jù)自由流動(dòng)中的價(jià)值挖掘能讓AI更好地發(fā)揮價(jià)值，但同時(shí)，數(shù)據(jù)流動(dòng)過程中不經(jīng)節(jié)制的應(yīng)用，也會(huì)帶來數(shù)據(jù)隱私侵犯的隱患。最近多個(gè)金融大數(shù)據(jù)公司遭到立案調(diào)查，從數(shù)據(jù)源的角度來看，其中一個(gè)重要原因就是該類公司的爬蟲對(duì)觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲(chǔ)或超出了約定的使用范圍。

舉例來說，如果有一個(gè) App 聲稱幫助用戶進(jìn)行多個(gè)金融賬戶進(jìn)行管理并綜合呈現(xiàn)個(gè)人現(xiàn)金流等信息，為了幫助 App 呈現(xiàn)這些信息，用戶就需要提供這些金融賬戶的訪問權(quán)限。但如果在這個(gè)過程中 App 對(duì)個(gè)人銀行賬戶內(nèi)的所有信息都進(jìn)行了抓取和存儲(chǔ)，并將這些信息提煉出來的標(biāo)簽出售給第三方或利用標(biāo)簽開展新的業(yè)務(wù)。由于這些過程未對(duì)用戶進(jìn)行告知并獲得許可，都是一種對(duì)數(shù)據(jù)使用權(quán)的濫用。
從當(dāng)下的工程實(shí)踐來看，解決挖掘和隱私的兩難，可能目前最好的解決方法是給數(shù)據(jù)擁有方一個(gè)控制力，包括對(duì)數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國際上普遍進(jìn)行的實(shí)踐或者規(guī)范（如GDPR）都傾向于對(duì)個(gè)人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。

比如GDPR中就會(huì)要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”，當(dāng)用戶有了這個(gè)明目之后，應(yīng)當(dāng)有權(quán)來選擇“保留哪些刪除哪些”；在此基礎(chǔ)之上，還比如會(huì)要求對(duì)數(shù)據(jù)處理方法作出明確問詢和授權(quán)，“比如通過采集到的用戶點(diǎn)贊的帖子的內(nèi)容和類型來學(xué)習(xí)用戶的興趣愛好”；這些興趣愛好作為標(biāo)簽，雖然不是原始數(shù)據(jù)，仍然需要用戶進(jìn)行逐一的明確授權(quán)。

當(dāng)我們通過給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù)，在實(shí)踐中又會(huì)出現(xiàn)一個(gè)新的挑戰(zhàn)——如何在不侵犯?jìng)€(gè)人隱私的前提下，獲得個(gè)人的授權(quán)。

舉個(gè)例子，比如在獲得興趣愛好標(biāo)簽授權(quán)的時(shí)候不太可能有用戶可以預(yù)先對(duì)近乎無限多的興趣愛好進(jìn)行一一授權(quán)，一般的過程也是首先由數(shù)據(jù)挖掘方獲得了某個(gè)標(biāo)簽，再針對(duì)這個(gè)標(biāo)簽進(jìn)行問詢。

我們?cè)谶^去的工作實(shí)踐中見過的最好的處理方法是首先對(duì)多達(dá)三到六百萬常用的興趣愛好做知識(shí)圖，將這些興趣愛好的包含關(guān)系或者關(guān)聯(lián)性整理出來；之后再對(duì)各類興趣愛好通過找到包含關(guān)系中處于包含當(dāng)前愛好的比較泛化的那類愛好進(jìn)行問詢這樣點(diǎn)到為止的方式來完成。

即便做到這樣，雖然消耗了巨大的資源并且有很高的門檻，也很難說做到了完美，因此也就不難理解多數(shù)公司在應(yīng)對(duì)GDPR或者相關(guān)合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個(gè)事實(shí)。

數(shù)據(jù)擁有者的控制力如何賦予？數(shù)據(jù)擁有者控制力的核心意義在于讓每個(gè)擁有者在挖掘和保護(hù)之間選擇自己的平衡點(diǎn)。為了給擁有者控制力，第一步要討論的是誰是數(shù)據(jù)的擁有者這個(gè)問題。

一般對(duì)于個(gè)人數(shù)據(jù)來說，無論是個(gè)人的身份識(shí)別信息或者生物統(tǒng)計(jì)信息這樣對(duì)個(gè)人進(jìn)行描述的數(shù)據(jù)，還是用戶的行為信息（比如訪問了哪些app，在app里面做了哪些事情）或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶生成數(shù)據(jù)，都會(huì)認(rèn)為擁有者是這個(gè)人本身。

尤其對(duì)于產(chǎn)生的標(biāo)簽數(shù)據(jù)來說，有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來的因此擁有者是采集方這個(gè)想法也不應(yīng)該是被廣泛認(rèn)同的。

圍繞擁有方是產(chǎn)生數(shù)據(jù)的個(gè)體這條線去思考，在整個(gè)數(shù)據(jù)生命周期鏈條里面就存在對(duì)第一方數(shù)據(jù)的控制、第二三方的控制等不同的問題。

對(duì)于第一方來說，由于是數(shù)據(jù)的采集者，涉及的方面也是最多的。Facebook在2018年的F8上宣布一個(gè)針對(duì)給用戶控制力的功能叫Clear History，里面描述的愿景基本理解為可以允許用戶在采集，存儲(chǔ)和使用三個(gè)方面給予控制力。

首先用戶會(huì)看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)（采集可見），之后允許用戶決定是否可以在廣告投放中進(jìn)行使用（使用控制），再次允許用戶對(duì)這些數(shù)據(jù)進(jìn)行立即刪除的操作（存儲(chǔ)控制）。

這個(gè)功能聽上去簡單，但實(shí)際上對(duì)于一個(gè)正在運(yùn)轉(zhuǎn)的機(jī)構(gòu)來說，要涉及到鑒別所有的數(shù)據(jù)來源、在復(fù)雜的數(shù)據(jù)流里面識(shí)別各類數(shù)據(jù)、以及對(duì)某個(gè)數(shù)據(jù)的所有存儲(chǔ)位置進(jìn)行控制這幾方面能力。對(duì)于小機(jī)構(gòu)來說資源和投入產(chǎn)出比肯定是不夠的，對(duì)于大機(jī)構(gòu)來說由于內(nèi)部數(shù)據(jù)流太過復(fù)雜，為了實(shí)現(xiàn)它往往會(huì)需要做整個(gè)系統(tǒng)的重新設(shè)計(jì)和實(shí)現(xiàn)，代價(jià)也不言而喻。

舉例來說，為了實(shí)現(xiàn)Clear History：首先為了在幾萬PB的數(shù)據(jù)倉庫中甚至更大的冷存儲(chǔ)中找到所需要控制的數(shù)據(jù)，就需要做整個(gè)數(shù)據(jù)集的語義識(shí)別（很多時(shí)候由于表單的schema并不統(tǒng)一，所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類型），這個(gè)過程類似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲(chǔ)點(diǎn)，會(huì)需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)流進(jìn)行端到端的識(shí)別。當(dāng)所有的存儲(chǔ)點(diǎn)識(shí)別完成后，為了實(shí)現(xiàn)功能中的實(shí)時(shí)刪除，還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個(gè)高吞吐量的中心管理系統(tǒng)。

這個(gè)過程協(xié)調(diào)了許多內(nèi)部部門，消耗了大量的資源，耗時(shí)一年以上。不難看出，在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

除第一方數(shù)據(jù)以外，在授權(quán)第二方的過程中，可能大體會(huì)分為兩種情況：第一種授權(quán)的目的可能是協(xié)助數(shù)據(jù)挖掘，第二種授權(quán)的目的可能是協(xié)助數(shù)據(jù)變現(xiàn)。在第一種情況下一般會(huì)只授權(quán)使用，不授權(quán)再次轉(zhuǎn)讓，并且對(duì)存儲(chǔ)進(jìn)行嚴(yán)格的控制（控制在使用所需的存儲(chǔ)范圍內(nèi)）。

比如說，對(duì)消費(fèi)行為進(jìn)行建模的第二方數(shù)據(jù)，往往會(huì)存在過去兩周和過去兩個(gè)月這樣兩種時(shí)點(diǎn)，超過兩個(gè)月的消費(fèi)行為一般價(jià)值也微乎其微。那么在授權(quán)存儲(chǔ)的時(shí)候一般會(huì)限定存儲(chǔ)時(shí)間不能超過2個(gè)月（外加一個(gè)比如24小時(shí)的灰色周期）。

在數(shù)據(jù)使用的授權(quán)上，一般如果對(duì)數(shù)據(jù)挖掘的目標(biāo)及使用場(chǎng)景進(jìn)行嚴(yán)格的限定，一方面可以保護(hù)授權(quán)方在競(jìng)爭(zhēng)法層面的權(quán)益，另一方面也可以間接保護(hù)數(shù)據(jù)擁有方的個(gè)人隱私。

從保護(hù)個(gè)人隱私的角度來講，假設(shè)授權(quán)的目的是計(jì)算某些用戶的還款風(fēng)險(xiǎn)從而幫助授權(quán)方?jīng)Q定是否放貸的場(chǎng)景，如果不限定挖掘的目的只能限于該合作方之間的征信目的，則可能會(huì)被第二方使用同樣的數(shù)據(jù)用于與其它合作方的營銷場(chǎng)景中作為對(duì)于個(gè)人現(xiàn)金流的判斷的一個(gè)因素。

對(duì)于第二種（數(shù)據(jù)變現(xiàn)）的情況，會(huì)有比如通過特定的場(chǎng)景或產(chǎn)品進(jìn)行變現(xiàn)以及通過售賣標(biāo)簽進(jìn)行變現(xiàn)不同的類型。這里不對(duì)各種數(shù)據(jù)變現(xiàn)的方式進(jìn)行展開，但想強(qiáng)調(diào)一點(diǎn)的是在變現(xiàn)的過程中需要關(guān)注的是原始數(shù)據(jù)在第二方或其它地方的沉淀情況。因?yàn)殡m然一般授權(quán)方會(huì)通過限制原始數(shù)據(jù)的轉(zhuǎn)讓（從而保護(hù)個(gè)人隱私），但仍然會(huì)允許加工過的數(shù)據(jù)進(jìn)行流通或通過某個(gè)場(chǎng)景達(dá)成目標(biāo)。

無論是哪種方式輸出的結(jié)果，都難以完全地避免數(shù)據(jù)的信息被沉淀，大量的沉淀會(huì)間接的導(dǎo)致原始數(shù)據(jù)被轉(zhuǎn)讓。舉一個(gè)數(shù)據(jù)泛化中沉淀結(jié)果的極端例子來說，假設(shè)我們?cè)试S對(duì)某一個(gè)人的常見活動(dòng)區(qū)域輸出某個(gè)較大的半徑圓范圍，多個(gè)這樣的半徑圓就可以逐步縮小對(duì)這個(gè)人活動(dòng)區(qū)域的判定。

公開數(shù)據(jù)和前述的最大區(qū)別是，由于已經(jīng)公開，只要是獲得了數(shù)據(jù)擁有者對(duì)于公開的授權(quán)，那么之后不會(huì)再對(duì)公開數(shù)據(jù)的采集者進(jìn)行一一授權(quán)。采集者獲取公開數(shù)據(jù)的途徑一般也都是通過爬蟲這樣的主動(dòng)收集的形式，具有一定的收集和清理／整理成本。

<上一頁 1 2 3 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

行業(yè)報(bào)告

2025年安防行業(yè)商業(yè)計(jì)劃書（融資BP）
2025年安防項(xiàng)目可行性研究報(bào)告
2025-2029年中國安防智能化市場(chǎng)研究及分析預(yù)測(cè)報(bào)告
2025-2029年中國物聯(lián)網(wǎng)安防應(yīng)用市場(chǎng)研究及預(yù)測(cè)分析報(bào)告

最新發(fā)布

最新活動(dòng)更多

精彩回顧
立即查看>> 2025中國國際工業(yè)博覽會(huì)維科網(wǎng)·激光VIP企業(yè)展臺(tái)直播
精彩回顧
立即查看>> 【在線研討會(huì)】多通道相參信號(hào)的實(shí)現(xiàn)與應(yīng)用
精彩回顧
立即查看>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
精彩回顧
立即查看>> 【線下會(huì)議】OFweek 2024（第九屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
精彩回顧
立即查看>> 松下新能源中國布局：鋰一次電池新品介紹
精彩回顧
立即查看>> 2024 智能家居出海論壇

一周熱點(diǎn) 月點(diǎn)擊榜

1 清華80后賣門鎖：年入10億，港股上市

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

安防獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网