国产精品一久久香蕉产线看-国产精品一区在线播放-国产精品自线在线播放-国产毛片久久国产-一级视频在线-一级视频在线观看免费

數(shù)據(jù)分析前提:數(shù)據(jù)質量管理四要素

時間:2022-07-10 18:21:28 管理 我要投稿
  • 相關推薦

數(shù)據(jù)分析前提:數(shù)據(jù)質量管理四要素

數(shù)據(jù)質量控制作為數(shù)據(jù)倉庫的基礎環(huán)節(jié),是保障上層數(shù)據(jù)應用的基礎。數(shù)據(jù)質量保證主要包括數(shù)據(jù)概要分析(Data Profiling)、數(shù)據(jù)審核(Data Auditing)和數(shù)據(jù)修正(Data Correcting)三個部分,前一篇文章介紹了Data Profiling的相關內容,從Data Profiling的過程中獲得了數(shù)據(jù)的概要統(tǒng)計信息,所以下面就要用這些數(shù)據(jù)統(tǒng)計信息來審核數(shù)據(jù)的質量,檢查數(shù)據(jù)中是否存在臟數(shù)據(jù),所以這一篇主要介紹數(shù)據(jù)審核(Data Auditing)的內容。

數(shù)據(jù)質量的基本要素

首先,如何評估數(shù)據(jù)的質量,或者說怎么樣的數(shù)據(jù)才是符合要求的數(shù)據(jù)?可以從4個方面去考慮,這4個方面共同構成了數(shù)據(jù)質量的4個基本要素。

完整性

數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。

數(shù)據(jù)的缺失主要有記錄的缺失和記錄中某個字段信息的缺失,兩者都會造成統(tǒng)計結果的不準確,所以完整性是數(shù)據(jù)質量最基礎的保障,而對完整性的評估相對比較容易。

一致性

數(shù)據(jù)的記錄是否符合規(guī)范,是否與前后及其他數(shù)據(jù)集合保持統(tǒng)一。

數(shù)據(jù)的一致性主要包括數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)邏輯的一致性。數(shù)據(jù)記錄的規(guī)范主要是數(shù)據(jù)編碼和格式的問題,比如網(wǎng)站的用戶ID是15位的數(shù)字、商品ID是10位數(shù)字,商品包括20個類目、IP地址一定是用”.”分隔的4個0-255的數(shù)字組成,及一些定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等;數(shù)據(jù)邏輯性主要是指標統(tǒng)計和計算的一致性,比如PV>=UV,新用戶比例在0-1之間等。數(shù)據(jù)的一致性審核是數(shù)據(jù)質量審核中比較重要也是比較復雜的一塊。

準確性

數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準確,是否存在異常或者錯誤的信息。

導致一致性問題的原因可能是數(shù)據(jù)記錄的規(guī)則不一,但不一定存在錯誤;而準確性關注的是數(shù)據(jù)記錄中存在的錯誤,比如字符型數(shù)據(jù)的亂碼現(xiàn)象也應該歸到準確性的考核范疇,另外就是異常的數(shù)值,異常大或者異常小的數(shù)值,不符合有效性要求的數(shù)值,如訪問量Visits一定是整數(shù)、年齡一般在1-100之間、轉化率一定是介于0到1的值等。對數(shù)據(jù)準確性的審核有時會遇到困難,因為對于沒有明顯異常的錯誤值我們很難發(fā)現(xiàn)。

及時性

數(shù)據(jù)從產(chǎn)生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時長。

雖然說分析型數(shù)據(jù)的實時性要求并不是太高,但并不意味了就沒有要求,分析師可以接受當天的數(shù)據(jù)要第二天才能查看,但如果數(shù)據(jù)要延時兩三天才能出來,或者每周的數(shù)據(jù)分析報告要兩周后才能出來,那么分析的結論可能已經(jīng)失去時效性,分析師的工作只是徒勞;同時,某些實時分析和決策需要用到小時或者分鐘級的數(shù)據(jù),這些需求對數(shù)據(jù)的時效性要求極高。所以及時性也是數(shù)據(jù)質量的組成要素之一。

Data Auditing

基于數(shù)據(jù)質量的4個要素,可以對數(shù)據(jù)進行審核,以評估數(shù)據(jù)是否滿足完整性、一致性、準確性和及時性這4方面的要求,其中數(shù)據(jù)的及時性主要跟數(shù)據(jù)的同步和處理過程的效率相關,更多的是通過監(jiān)控ETL任務的方式來保證數(shù)據(jù)的及時性,所以這里的數(shù)據(jù)審核主要指的是評估數(shù)據(jù)的完整性、一致性和準確性。

完整性

我們從Data Profiling得到的數(shù)據(jù)統(tǒng)計信息里面看看哪些可以用來審核數(shù)據(jù)的完整性。首先是記錄的完整性,一般使用統(tǒng)計的記錄數(shù)和唯一值個數(shù)。比如網(wǎng)站每天的日志記錄數(shù)是相對恒定的,大概在1000萬上下波動,如果某天的日志記錄數(shù)下降到了只有100萬,那很有可能記錄缺失了;或者網(wǎng)站的訪問記錄應該在一天的24小時均有分布,如果某個整點完全沒有用戶訪問記錄,那么很有可能網(wǎng)站在當時出了問題或者那個時刻的日志記錄傳輸出現(xiàn)了問題;再如統(tǒng)計訪客的地域分布時,一般會包括全國的32個省份直轄市,如果統(tǒng)計的省份唯一值個數(shù)少于32,那么很有可能數(shù)據(jù)也存在缺失。

完整性的另一方面,記錄中某個字段的數(shù)據(jù)缺失,可以使用統(tǒng)計信息中的空值(NULL)的個數(shù)進行審核。如果某個字段的信息理論上必然存在,比如訪問的頁面地址、購買的商品ID等,那么這些字段的空值個數(shù)的統(tǒng)計就應該是0,這些字段我們可以使用非空(NOT NULL)約束來保證數(shù)據(jù)的完整性;對于某些允許空的字段,比如用戶的cookie信息不一定存在(用戶禁用cookie),但空值的占比基本恒定,比如cookie為空的用戶比例通常在2%-3%,我們同樣可以使用統(tǒng)計的空值個數(shù)來計算空值占比,如果空值的占比明顯增大,很有可能這個字段的記錄出現(xiàn)了問題,信息出現(xiàn)缺失。

一致性

如果數(shù)據(jù)記錄格式有標準的編碼規(guī)則,那么對數(shù)據(jù)記錄的一致性檢驗比較簡單,只要驗證所有的記錄是否滿足這個編碼規(guī)則就可以,最簡單的就是使用字段的長度、唯一值個數(shù)這些統(tǒng)計量。比如對用戶ID的編碼是15位數(shù)字,那么字段的最長和最短字符數(shù)都應該是15;或者商品ID是P開始后面跟10位數(shù)字,可以用同樣的方法檢驗;如果字段必須保證唯一,那么字段的唯一值個數(shù)跟記錄數(shù)應該是一致的,比如用戶的注冊郵箱;再如地域的省份直轄市一定是統(tǒng)一編碼的,記錄的一定是“上海”而不是“上海市”、“浙江”而不是“浙江省”,可以把這些唯一值映射到有效的32個省市的列表,如果無法映射,那么字段通不過一致性檢驗。

一致性中邏輯規(guī)則的驗證相對比較復雜,很多時候指標的統(tǒng)計邏輯的一致性需要底層數(shù)據(jù)質量的保證,同時也要有非常規(guī)范和標準的統(tǒng)計邏輯的定義,所有指標的計算規(guī)則必須保證一致。我們經(jīng)常犯的錯誤就是匯總數(shù)據(jù)和細分數(shù)據(jù)加起來的結果對不上,導致這個問題很有可能的原因就是數(shù)據(jù)在細分的時候把那些無法明確歸到某個細分項的數(shù)據(jù)給排除了,比如在細分訪問來源的時候,如果我們無法將某些非直接進入的來源明確地歸到外部鏈接、搜索引擎、廣告等這些既定的來源分類,但也不應該直接過濾掉這些數(shù)據(jù),而應該給一個“未知來源”的分類,以保證根據(jù)來源細分之后的數(shù)據(jù)加起來還是可以與總體的數(shù)據(jù)保持一致。如果需要審核這些數(shù)據(jù)邏輯的一致性,我們可以建立一些“有效性規(guī)則”,比如A>=B,如果C=B/A,那么C的值應該在[0,1]的范圍內等,數(shù)據(jù)無法滿足這些規(guī)則就無法通過一致性檢驗。

準確性

數(shù)據(jù)的準確性可能存在于個別記錄,也可能存在于整個數(shù)據(jù)集。如果整個數(shù)據(jù)集的某個字段的數(shù)據(jù)存在錯誤,比如常見的數(shù)量級的記錄錯誤,這種錯誤很容易發(fā)現(xiàn),利用Data Profiling的平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問題。當數(shù)據(jù)集中存在個別的異常值時,可以使用最大值和最小值的統(tǒng)計量去審核,或者使用箱線圖也可以讓異常記錄一目了然。

還有幾個準確性的審核問題,字符亂碼的問題或者字符被截斷的問題,可以使用分布來發(fā)現(xiàn)這類問題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項很可能存在問題,比如某個字符記錄占總體的占比只有0.1%,而其他的占比都在3%以上,那么很有可能這個字符記錄有異常,一些ETL工具的數(shù)據(jù)質量審核會標識出這類占比異常小的記錄值。對于數(shù)值范圍既定的數(shù)據(jù),也可以有效性的限制,超過數(shù)據(jù)有效的值域定義數(shù)據(jù)記錄就是錯誤的。

如果數(shù)據(jù)并沒有顯著異常,但仍然可能記錄的值是錯誤的,只是這些值與正常的值比較接近而已,這類準確性檢驗最困難,一般只能與其他來源或者統(tǒng)計結果進行比對來發(fā)現(xiàn)問題,如果使用超過一套數(shù)據(jù)收集系統(tǒng)或者網(wǎng)站分析工具,那么通過不同數(shù)據(jù)來源的數(shù)據(jù)比對可以發(fā)現(xiàn)一些數(shù)據(jù)記錄的準確性問題。

via:網(wǎng)站數(shù)據(jù)分析

【數(shù)據(jù)分析前提:數(shù)據(jù)質量管理四要素】相關文章:

銷售數(shù)據(jù)的分析方法07-25

數(shù)據(jù)分析報告07-28

大數(shù)據(jù)分析07-20

大數(shù)據(jù)分析07-25

多維數(shù)據(jù)分析方法04-07

數(shù)據(jù)分析簡歷模板02-17

數(shù)據(jù)分析工作職責07-28

數(shù)據(jù)分析常用方法07-26

數(shù)據(jù)分析主管的職責01-13

數(shù)據(jù)分析報告【推薦】03-07

主站蜘蛛池模板: 韩漫画无遮挡羞免费网站 | 伊人久久大香线蕉综合网站 | 巨人导航收录500精品 | 麻豆视频一区二区 | 天天综合天天综合色在线 | 蜜臀91精品国产免费观看 | 视频一区二区在线观看 | 欧美日韩亚洲第一页 | 成年男女免费大片在线观看 | 综合成人在线 | 国产成人精品日本亚洲网站 | 99在线观看视频免费精品9 | 日韩精品免费看 | 男人使劲桶女人下面动态图片 | 五月激情综合丁香色婷婷 | 日韩欧美伦理 | 99在线公开免费视频 | 欧美日韩ay在线观看 | 亚洲国产精品第一区二区 | 免费特黄 | 色爱综合区五月小说 | 成人黄激情免费视频 | 欧美午夜大片 | 国产精品香蕉一区二区三区 | 久久99中文字幕伊人 | 亚洲成人精品久久 | 亚洲欧美日韩天堂在线观看 | 草草影院欧美 | 久久精品2019www中文 | 日韩精品美女 | 麻豆国产成人精品午夜视频 | 午夜影院性 | 久久久噜噜噜久久网 | 多人伦交性欧美在线观看 | 野花影视视频在线观看免费 | 国产无人区卡一卡二卡三网站 | 天天射日日操 | 一区二区三区免费高清视频 | 成人欧美一区在线视频在线观看 | 亚洲大香伊人蕉在人依线 | 婷婷夜夜躁天天躁人人躁 |