訂閱
糾錯(cuò)
加入自媒體

數(shù)據(jù)中臺(tái)下的數(shù)據(jù)質(zhì)量提升之道

2020-11-12 13:58
EAWorld
關(guān)注

當(dāng)前越來越多的組織認(rèn)識(shí)到了數(shù)據(jù)的重要性,為了發(fā)揮數(shù)據(jù)的價(jià)值,數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)的建設(shè)如雨后春筍。但數(shù)據(jù)是一把雙刃劍,它能給企業(yè)帶來業(yè)務(wù)價(jià)值的同時(shí)也是組織最大的風(fēng)險(xiǎn)來源。糟糕的數(shù)據(jù)質(zhì)量常常意味著低效的、錯(cuò)誤的業(yè)務(wù)決策,將直接導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)分析不準(zhǔn)確、監(jiān)管業(yè)務(wù)難、高層領(lǐng)導(dǎo)難以決策等問題。如何在數(shù)據(jù)中臺(tái)搭建數(shù)據(jù)質(zhì)量管理體系,形成常態(tài)化的數(shù)據(jù)質(zhì)量管理流程是決定數(shù)據(jù)中臺(tái)運(yùn)營(yíng)應(yīng)用的重要因素。

目錄:

1.?dāng)?shù)據(jù)質(zhì)量問題的產(chǎn)生來源

2.?dāng)?shù)據(jù)質(zhì)量問題域及分類

3.?dāng)?shù)據(jù)質(zhì)量管理體系建設(shè)的五個(gè)原則

4.?dāng)?shù)據(jù)質(zhì)量管理框架及關(guān)鍵技術(shù)

5.?dāng)?shù)據(jù)質(zhì)量管理的最佳實(shí)踐

1、數(shù)據(jù)質(zhì)量問題的產(chǎn)生來源

現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣,古人筑堤壩是為約束河水,讓自然資源為我所用,發(fā)揮自然資源的價(jià)值;今人做數(shù)據(jù)集成融合,建數(shù)據(jù)中臺(tái),是為了挖掘數(shù)據(jù)價(jià)值,發(fā)揮數(shù)據(jù)資源的價(jià)值,讓數(shù)據(jù)資源為企業(yè)的業(yè)務(wù)創(chuàng)新發(fā)揮價(jià)值。

在企業(yè)信息化初期,各類業(yè)務(wù)系統(tǒng)恣意生長(zhǎng),這個(gè)階段就像沒有修筑大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有數(shù)據(jù)問題,但不明顯。

在企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的背景下,尤其是搭建了數(shù)據(jù)中臺(tái)的組織,需要按照統(tǒng)一的結(jié)構(gòu)和標(biāo)準(zhǔn)把各類數(shù)據(jù)集成起來,就像筑堤束水之后的黃河,泄流不暢、決口不斷等問題紛紛出現(xiàn),數(shù)據(jù)不一致、不完整、不準(zhǔn)確等各種問題撲面而來。

大數(shù)據(jù)時(shí)代數(shù)據(jù)集成融合的需求會(huì)愈加迫切,不僅要融合企業(yè)內(nèi)部數(shù)據(jù),也要融合外部(互聯(lián)網(wǎng)等)數(shù)據(jù)。如果沒有對(duì)數(shù)據(jù)質(zhì)量問題建立相應(yīng)的管理策略和技術(shù)工具,那么數(shù)據(jù)質(zhì)量問題的危害會(huì)更加嚴(yán)重。據(jù)IBM統(tǒng)計(jì),數(shù)據(jù)分析員每天有30%的時(shí)間浪費(fèi)在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上。

2、數(shù)據(jù)質(zhì)量問題域及分類

數(shù)據(jù)質(zhì)量問題從大的方面可以劃分為技術(shù)、業(yè)務(wù)和管理問題域。技術(shù)問題域包括數(shù)據(jù)校驗(yàn)不夠、默認(rèn)值使用不當(dāng)?shù)葐栴},通常是由于系統(tǒng)建設(shè)和數(shù)據(jù)處理導(dǎo)致的。業(yè)務(wù)問題域細(xì)分為信息問題域和流程問題域,業(yè)務(wù)上存在多渠道數(shù)據(jù)創(chuàng)建、不合理的數(shù)據(jù)變更流程的問題。管理問題域包括數(shù)據(jù)責(zé)任人不明確、沒有獎(jiǎng)懲制度,缺少培訓(xùn)等。

下圖是企業(yè)數(shù)據(jù)創(chuàng)建、加載、匯總、分析到展現(xiàn)的5個(gè)步驟,很顯然,步驟①~⑤任何一步出錯(cuò)都會(huì)導(dǎo)致整個(gè)結(jié)論分析失真。

業(yè)務(wù)操作部門在數(shù)據(jù)錄入過程可能輸入錯(cuò)誤的數(shù)據(jù)。這決定了數(shù)據(jù)源的質(zhì)量。

在數(shù)據(jù)抽取、加載工程中導(dǎo)致數(shù)據(jù)記錄丟失、數(shù)據(jù)重復(fù)等問題。

在數(shù)據(jù)加工、轉(zhuǎn)換過程中,由于數(shù)據(jù)加工、轉(zhuǎn)換的代碼魯棒性和穩(wěn)定性不夠,導(dǎo)致的數(shù)據(jù)加工結(jié)果出現(xiàn)的錯(cuò)誤。

數(shù)據(jù)計(jì)算匯總過程中,導(dǎo)致的數(shù)據(jù)的錯(cuò)誤。

分析展現(xiàn)工具將加工好的數(shù)據(jù)展現(xiàn)給數(shù)據(jù)分析人員、管理決策人員出現(xiàn)的錯(cuò)誤。

在某種意義上講,分析者所做出的決策的正確性來源于企業(yè)信息源的質(zhì)量、數(shù)據(jù)倉(cāng)庫(kù)本身的質(zhì)量、數(shù)據(jù)集市的質(zhì)量以及數(shù)據(jù)倉(cāng)庫(kù)各過程的質(zhì)量。我們可以看到,在數(shù)據(jù)應(yīng)用過程中5步中有4步是技術(shù)或管理造成的,只有1步會(huì)是錄入環(huán)節(jié)導(dǎo)致。而恰好是這一步是數(shù)據(jù)中臺(tái)無法管理和解決的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)。因此從根本上解決數(shù)據(jù)質(zhì)量問題,從源頭解決是最有效的途徑,在輔助數(shù)據(jù)中臺(tái)從技術(shù)和管理上加強(qiáng)測(cè)試、規(guī)范和監(jiān)控,那么數(shù)據(jù)質(zhì)量問題的解決就水到渠成了。

3、數(shù)據(jù)質(zhì)量管理體系建設(shè)的五個(gè)原則

總結(jié)古人治理黃河水患,主要有兩種策略,一種是“疏通”,上策遷移民眾和中策分流黃河水患,都是具體體現(xiàn);另一種是“圍堵”,加高增厚堤防,抑制河水爛漫。

治理數(shù)據(jù)質(zhì)量的問題可以應(yīng)用下古人的智慧和考量。采用規(guī)劃頂層設(shè)計(jì),制定統(tǒng)一數(shù)據(jù)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計(jì)數(shù)據(jù)質(zhì)量的管理機(jī)制,建立相應(yīng)的組織架構(gòu)和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質(zhì)量,這是數(shù)據(jù)質(zhì)量管理“疏”的方式。而單純依賴技術(shù)手段,通過增加ETL數(shù)據(jù)清洗處理邏輯的復(fù)雜度,使用數(shù)據(jù)質(zhì)量工具來發(fā)現(xiàn)ETL數(shù)據(jù)處理中的問題屬于“堵”的方式,只能解決表面的問題,不是根本的解決方法。事實(shí)上這種方式也在好多企業(yè)中使用,其根本目的在于提高ETL處理的準(zhǔn)確度,做法無可厚非,畢竟找別人的問題之前,先要保證自身是沒有問題的。

按照多個(gè)行業(yè)實(shí)施數(shù)據(jù)質(zhì)量管理項(xiàng)目的經(jīng)驗(yàn),數(shù)據(jù)質(zhì)量管理應(yīng)該是采用“疏”和“堵”相結(jié)合的方式,通過這種方式解決數(shù)據(jù)質(zhì)量問題有5個(gè)原則。如下圖所示:

1)全程監(jiān)控原則:全程監(jiān)控是針對(duì)數(shù)據(jù)生命周期全過程中各環(huán)節(jié)進(jìn)行數(shù)據(jù)質(zhì)量監(jiān)控,從數(shù)據(jù)的定義、錄入、獲取、計(jì)算、使用的全過程進(jìn)行質(zhì)量監(jiān)控。數(shù)據(jù)定義階段,對(duì)數(shù)據(jù)模型、字典枚舉值進(jìn)行監(jiān)控,判斷是否遵循了統(tǒng)一的標(biāo)準(zhǔn)。數(shù)據(jù)錄入階段對(duì)輸入的合法性進(jìn)行校驗(yàn)等,數(shù)據(jù)獲取階段對(duì)數(shù)據(jù)記錄數(shù)、數(shù)據(jù)一致性進(jìn)行檢核等。明確各部門在數(shù)據(jù)全生命周期中的責(zé)任,全方位保證數(shù)據(jù)質(zhì)量。

2)閉環(huán)管理原則:從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評(píng)估5個(gè)方面建立問題處理的閉環(huán)機(jī)制。從業(yè)務(wù)、技術(shù)兩個(gè)維度出發(fā)做問題定義,由工具自動(dòng)發(fā)現(xiàn)問題,明確問題責(zé)任人,通過郵件、短信等方式進(jìn)行通知,將問題及時(shí)通知到責(zé)任人,跟蹤問題整改進(jìn)度,建立相應(yīng)的質(zhì)量問題評(píng)估KPI,保證數(shù)據(jù)質(zhì)量問題管理閉環(huán)。

3)全員參與原則:數(shù)據(jù)質(zhì)量提升涉及到組織多個(gè)部門,包括不僅限于數(shù)據(jù)提供方、數(shù)據(jù)消費(fèi)方、數(shù)據(jù)質(zhì)量管理員等。尤其在數(shù)據(jù)質(zhì)量問題定義和整改階段需要多方人員的參與才能達(dá)到效果。在數(shù)據(jù)質(zhì)量問題定義階段,需要數(shù)據(jù)責(zé)任人、業(yè)務(wù)專家、數(shù)據(jù)使用人員對(duì)數(shù)據(jù)問題校驗(yàn)規(guī)則達(dá)成一致,共同制定數(shù)據(jù)檢核范圍、數(shù)據(jù)問題條件等。問題整改階段,要由數(shù)據(jù)責(zé)任方、數(shù)據(jù)質(zhì)量管理員和技術(shù)人員,共同定位問題原因并進(jìn)行整改。

4)借助工具,自動(dòng)檢核:數(shù)據(jù)質(zhì)量工具保證問題發(fā)現(xiàn)的效率。在數(shù)據(jù)使用過程中深入分析已發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題的成因,及時(shí)由IT部門將其轉(zhuǎn)化為技術(shù)規(guī)則落地到系統(tǒng)中,通過技術(shù)手段自動(dòng)檢核數(shù)據(jù)質(zhì)量問題,提升數(shù)據(jù)質(zhì)量檢核效率。數(shù)據(jù)質(zhì)量工具在采集到的數(shù)據(jù)模型元數(shù)據(jù)的基礎(chǔ)上,通過配置自動(dòng)生成檢核規(guī)則的腳本,并通過設(shè)置數(shù)據(jù)質(zhì)量檢核任務(wù)的運(yùn)行周期,定時(shí)檢核數(shù)據(jù)質(zhì)量問題,并將數(shù)據(jù)質(zhì)量問題數(shù)據(jù)保存到系統(tǒng)中,便于用戶進(jìn)行查看和定位問題。

5)提升意識(shí)、主動(dòng)管理:數(shù)據(jù)質(zhì)量管理工作需要提升全員數(shù)據(jù)質(zhì)量意識(shí),形成組織數(shù)據(jù)治理的文化氛圍。數(shù)據(jù)使用方發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題后,及時(shí)主動(dòng)的進(jìn)行問題的上報(bào),避免數(shù)據(jù)問題對(duì)業(yè)務(wù)造成影響。數(shù)據(jù)責(zé)任人接到問題通知后,應(yīng)主動(dòng)配合數(shù)據(jù)管理部門進(jìn)行問題整改。數(shù)據(jù)管理部門應(yīng)該從事前預(yù)防數(shù)據(jù)問題出發(fā),制定企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)并加強(qiáng)宣貫,減少因?yàn)槿鄙俳y(tǒng)一的標(biāo)準(zhǔn)、規(guī)范導(dǎo)致數(shù)據(jù)質(zhì)量問題。

4、數(shù)據(jù)質(zhì)量管理框架及關(guān)鍵技術(shù)

在“五個(gè)原則”的指導(dǎo)下開展數(shù)據(jù)質(zhì)量提升工作,從系統(tǒng)層面需要制定數(shù)據(jù)質(zhì)量管理的功能框架。數(shù)據(jù)質(zhì)量系統(tǒng)應(yīng)具備數(shù)據(jù)質(zhì)量規(guī)則管理、檢核腳本管理、任務(wù)管理、檢核結(jié)果管理、數(shù)據(jù)質(zhì)量報(bào)告等功能,以度量規(guī)則和檢核腳本管理為主線,通過自身任務(wù)管理模塊或者第三方調(diào)度為觸發(fā)點(diǎn),幫助企業(yè)建立統(tǒng)一的數(shù)據(jù)質(zhì)量管理工具。

從系統(tǒng)實(shí)現(xiàn)的角度上,要解決三個(gè)關(guān)鍵技術(shù)。

1、檢核腳本的自動(dòng)生成。數(shù)據(jù)質(zhì)量檢核實(shí)際上是按照腳本執(zhí)行并篩選出有問題的數(shù)據(jù)。隨著數(shù)據(jù)質(zhì)量度量規(guī)則的增多,通過人為手工編寫腳本的方式就無法應(yīng)對(duì)快速增加的度量規(guī)則,通常一個(gè)中等規(guī)模的金融企業(yè),就具備上千條度量規(guī)則。因此通過配置的方式,利用腳本生成引擎自動(dòng)生成檢核腳本,是數(shù)據(jù)質(zhì)量工具必須具備的功能。

2、多線程檢核架構(gòu)。檢核腳本的執(zhí)行時(shí)間是影響能夠及時(shí)查看到數(shù)據(jù)質(zhì)量問題的另一個(gè)關(guān)鍵因素。在腳本執(zhí)行過程中,需要采用多線程并發(fā)來執(zhí)行保證在較短的時(shí)間內(nèi)檢核出有問題的數(shù)據(jù)。

3、數(shù)據(jù)質(zhì)量報(bào)告。數(shù)據(jù)質(zhì)量報(bào)告是對(duì)企業(yè)數(shù)據(jù)質(zhì)量情況的總結(jié)分析,需要能夠從不同維度系統(tǒng)、部門、檢核類別等維度生成固定數(shù)據(jù)質(zhì)量報(bào)告。還需要支持按照選擇的數(shù)據(jù)質(zhì)量規(guī)則,時(shí)間等條件,來生成個(gè)性化的數(shù)據(jù)質(zhì)量報(bào)告。

5、數(shù)據(jù)質(zhì)量管理的最佳實(shí)踐

為實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的切實(shí)落地,推進(jìn)數(shù)據(jù)質(zhì)量問題的有效解決,某銀行將數(shù)據(jù)質(zhì)量問題考核作為重中之重,將數(shù)據(jù)質(zhì)量問題解決效果與部門KPI掛鉤,減小了數(shù)據(jù)質(zhì)量整改的難度,為數(shù)據(jù)質(zhì)量的推進(jìn)提供驅(qū)動(dòng)力,能夠及時(shí)對(duì)發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行處理。該銀行的數(shù)據(jù)質(zhì)量工作開展,分為了三個(gè)階段:

第一階段:搭建數(shù)據(jù)質(zhì)量系統(tǒng)。借助數(shù)據(jù)質(zhì)量管理系統(tǒng)自動(dòng)對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行檢核, 摸清數(shù)據(jù)質(zhì)量情況,解決技術(shù)原因?qū)е聰?shù)據(jù)質(zhì)量問題。

第二階段:定位問題責(zé)任主體。將數(shù)據(jù)質(zhì)量問題檢核提前到業(yè)務(wù)系統(tǒng)中來,將問題數(shù)據(jù)所在分行業(yè)務(wù)數(shù)據(jù)錄入人一并獲取到數(shù)據(jù)質(zhì)量管理平臺(tái),從而為數(shù)據(jù)質(zhì)量問題的追本溯源奠定了技術(shù)基礎(chǔ)。

第三階段:成立數(shù)據(jù)質(zhì)量考核評(píng)價(jià)小組。為保證已發(fā)現(xiàn)的業(yè)務(wù)原因?qū)е碌膯栴}能得到有效地解決,設(shè)計(jì)出了分層級(jí)的考核體系,由數(shù)據(jù)質(zhì)量考核評(píng)價(jià)小組對(duì)各家分行數(shù)據(jù)質(zhì)量問題的解決情況進(jìn)行打分,計(jì)入各家分行的KPI績(jī)效考核中。

在后續(xù)數(shù)據(jù)質(zhì)量系統(tǒng)的運(yùn)行,開展對(duì)銀行內(nèi)部多個(gè)業(yè)務(wù)部門進(jìn)行了考核,考核范圍包括多個(gè)重要的業(yè)務(wù)系統(tǒng),并檢核出了各家分行的多項(xiàng)數(shù)據(jù)問題,大大提升了數(shù)據(jù)質(zhì)量問題的修改率,整改的數(shù)據(jù)問題數(shù)據(jù)涉及到超過數(shù)千億的貸款額度。

參考文獻(xiàn):

[1]DAMA-DMBOK2數(shù)據(jù)管理知識(shí)體系指南.機(jī)械工業(yè)出版社2020.5

[2]劉慶會(huì).大數(shù)據(jù)是否值得信賴——淺談商業(yè)銀行如何提升數(shù)據(jù)質(zhì)量 [EB/OL], 2016-04-14

[3] 賈讓.治河三策千古鑒.河北水利,2016(2):36-36

關(guān)于作者:劉慶會(huì),普元云計(jì)算和大數(shù)據(jù)產(chǎn)品部架構(gòu)師,主要負(fù)責(zé)普元大數(shù)據(jù)治理產(chǎn)品研發(fā)和項(xiàng)目實(shí)施,十年大型企業(yè)信息數(shù)據(jù)治理架構(gòu)設(shè)計(jì)與建設(shè)經(jīng)驗(yàn),為多家大型金融機(jī)構(gòu)、企業(yè)設(shè)計(jì)與規(guī)劃數(shù)據(jù)管理整體框架和項(xiàng)目實(shí)施。數(shù)據(jù)行業(yè)有著深入的研究和洞察,并對(duì)企業(yè)信息化平臺(tái)建設(shè),數(shù)據(jù)治理及大數(shù)據(jù)平臺(tái)建設(shè)有著豐富經(jīng)驗(yàn)。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)