終於有人把資料治理怎麼做給講明白了!
一、資料治理內涵:一套管理體系
資料治理(Data Governance — DG)是企業對資料資產管理行使權力和控制的活動集合(包括計劃、監督和執行 ),它是管理企業資料資源的一種方式、方法,旨在確保資料的質量、安全、合規和有效性。資料治理是企業實現資料戰略的基礎,是一個管理體系,包括組織、制度、流程和工具。
資料的生命週期包含了源頭、處理和消費這三個階段,資料的問題也可能會出現在這三個環節中。例如在資料來源頭環節,使用者錄入資料的規範性存在問題,導致了最終資料消費環節的資料質量低。資料表象問題的根源,可能來自於業務系統使用者互動設計,乃至是底層資料庫表結構設計上的缺陷。
而要想解決這些表象的資料問題,就必須解決深層次的資訊化業務系統開發以及資料庫表約束設計等問題。例如為了保證使用者錄入資料的準確性,有三種方式去設計業務系統:其一是設計前端的檢驗驗證,避免使用者做出相同的選擇;其二是透過程式編寫過濾判斷的邏輯,篩除掉前端誤入的資料,作為第二層驗證;其三是透過建立約束條件,例如唯一性約束、檢測約束等等來控制資料錄入準確性。
因此,企業的資料治理遠非使用一款單一的工具或產品就可以實現的,它是需要回到源頭,對企業的組織、流程制度、業務系統、底層架構等多個方面進行排查和重構的,它是一套複雜的管理體系。
二、資料治理策略:拉式策略與推式策略
考慮到資料治理工程的複雜性,我們提出了兩種目的性不同的資料治理策略:拉式策略(Pull Strategy)和推式策略(Push Strategy)。
1、拉式策略
面向資料應用,是以提升資料應用過程中的資料準確性為目標的資料治理建設策略。它強調在資料應用的過程中定位和解決問題,以資料應用專案為建設週期。具體而言,拉式策略有三個特點:
(1)自上而下
拉式策略通常以指標體系為起點,進行金字塔式自上而下的規劃與建設,透過“資料流、業務流、資訊流”的過程反向推動資料質量提升;
(2)資料整合
它包括多系統的資料整合、拉通、清洗、處理,以及資料倉庫建設和 ETL 開發過程;
(3)資料應用
拉式策略面向資料應用。根據實際業務情況,主要解決資料指標定義標準不清晰、指標計算口徑不統一、指標計算口徑版本變更、資料不準確、資料上報與資料稽核等資料應用場景出現的問題。
2、推式策略
面向資料全生命週期的管理與控制,是一種體系化的資料治理建設策略。它強調體系化的計劃、監督、預防與執行,包括多年計劃的資料策略建設週期。具體而言,推式策略有三個特點:
(1)體系化、系統化
推式策略不針對某個單一的、具體的資料應用場景,而是一個全面體系化的治理過程;
(2)全生命週期
它貫穿資料全生命週期的管理,例如資料採集、資料質量、資料應用、資料安全、資料分享等多個環節;
(3)立體策略
推式策略從資料治理策略(目標、範圍、方法和組織 )開始,透過專業的資料治理團隊進行資料治理的規劃、實施和監督,透過制定資料管理流程規範從源頭業務系統的構建到資料的分發、流轉,包括資料安全策略與控制,最終貫穿資料資產管理、分析和挖掘的全生命週期過程。
3、兩種策略比較
拉式策略以資料應用需求為起點,推式策略以標準規劃為起點,兩種策略在多個方面有差異:
根據多數企業的實踐經驗,以資料應用需求為起點的拉式策略有著更短的實施週期和更低的投入成本,是一種更加靈活、更加敏捷的資料治理策略。
三、資料問題的洞察
資料問題的洞察過程可以分為5個步驟:
第一步是企業內部的資料收集和需求調研;
第二步是指標體系梳理;
第三步是確認視覺化原型設計方案;
第四步是“資料流-資訊流-業務流”的問題識別過程;
第五步是暴露問題,形成資料質量提高待辦。
這些步驟中最為重要的是第二步指標體系的梳理和第四步“資料流-資訊流-業務流”的問題識別過程。資料問題洞察,本質上就是基於資料指標體系,以“資料流、資訊流、業務流”的基本邏輯框架,在限定的範圍內及時洞察資料質量問題的根源,並逆向推動業務資訊化和業務管理的改善和提升。
資料流層面
企業資料問題的洞察始於資料流層面的對指標體系的梳理。指標體系裡包含指標和維度,指標即是目標,維度是資料的視角。在確定指標體系後,就需要標準化指標的定義與計算口徑、計算邏輯,包括對不同計算口徑的版本管理。在計算口徑確認後,就需要順著計算邏輯逐層向下追蹤,檢視資料能否被獲取到。
資訊流層面
資料流層面出現問題,排除資訊流層面存在的資訊系統建設問題,還有可能是業務流層面的管理問題導致的。例如同一個指標有不同的計算口徑,這就不是資訊系統的問題,而是管理自身的問題,是由於部門間的衝突而導致的。從資料流到業務流的分析,企業可以透過表層的資料問題洞察到自身業務流程上存在的弊端,從而逆向完善業務管理流程和管理邊界。
業務流層面
在這樣金字塔式的資料問題洞察方法下,透過階段性、有限的指標體系框定了取數的來源範圍,因此不會盲目地擴大資料治理的範圍和目標。透過在限定的系統範圍內洞察存在問題的資料,可以形成有針對性的資料治理策略,讓問題聚焦。最後透過階段性的識別問題、解決問題,可以由點到面、由淺及深,暴露的問題逐步解決,保障階段性的建設成果。
企業表層資料問題的產生往往有深層次的業務系統設計、流程制度管理方面的原因。因此要想透過資料治理提升企業資料的質量,就不能僅僅依靠一個工具或產品解決表象的問題,需要分析諸多因素,找到最合適的解決方案。
以上就是本期的內容分享~~,碼字不易,如果覺得對你有一點點幫助,歡迎「追蹤」,「按贊」,「分享」喔,我會持續為大家創作優質的內容~~
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~
☞☞☞點選下方圖片免費體驗FineBI工具demo!
文章推薦:
回顧十週入門數據分析系列文:
關注數據君的臉書
我是「數據分析那些事」。常年在臉書,ins分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,並在臉書置頂帖子下回復SQL50,會有MySQL經典50題及答案贈送唷!