關於大數據的這14個概念,你知道幾個?
在我們生活中,因“一字之差”而引起的誤會、誤解、笑話、甚至風波時有發生。有的“一字之差”是粗心、疏忽導致,有的“一字之差”是對名詞不理解或沒理解透的濫用導致。
數據領域中,也有一些概念、名詞術語,常常讓人感到頭痛:“水果蛋糕”和“水果味蛋糕”傻傻分不清楚XDD!
下面談一談我的一些理解。
一、數據治理、數據管理、數據管控
數據治理、數據管理、數據管控這三個名詞在一定程度上的確是有所重疊,特別容易混為一談,所以就造成了在實際使用中,經常將這三個詞語“混著用”、“隨機用”的現象。
如果要用一個模型來描述數據治理、數據管理、數據管控這三個名詞,那應該是一個“金字塔”模型。
最頂層的應該是數據治理,因此,數據治理應該是企業頂層設計、戰略規劃方面的內容,是數據管理活動的總綱和指導,指明數據管理過程中哪些決策要被制定,以及由“誰”來負責,更強調組織模式、職責分工和標準規範。
數據管理是實現數據治理提出的決策並給予反饋,強調管理流程和制度,涵蓋不同的管理領域,諸如:元數據管理、主數據管理、數據標準管理、數據質量管理、數據安全管理、數據認責管理、數據服務管理等。
數據管控更多的是執行層面,是具體的如何落地執行所涉及的各種措施,例如:數據建模、數據抽取、數據處理、數據加工、數據分析等。
二、元數據、數據元、數據來源、源數據
元數據、數據元、數據來源、源數據,這幾意思毫不相干卻都帶著一個“yuan”,讓很多初學者抓狂。
先說數據元,例如,聯絡人方式中的聯絡人姓名就是就可以理解為一個數據元素,姓名為數據元的物件,“張三”為數據元的值。
元數據,用哲學的思維理解元數據的話,元數據其實解決的是:我是誰,我在哪裡,我從哪裡來,我要到哪裡去的問題。
- 數據是物料,而元數據是倉庫裡的數據卡片;
- 數據是數據夾,而元數據是夾子上的標籤;
- 數據是書,元數據是圖書館中的圖書卡。
10年前我們講數據來源,更多的是說一種數據連線的技術,比如:JDBC、ODBC,或者是指數據庫的型別,比如:結構化數據庫、非結構化數據庫。
而大數據時代,數據呈多樣化發展,數據來源的多樣化是時代的一個特徵。
三、數據模型、數據結構、數據字典
數據是描述事物的符號記錄,模型是現實世界的抽象,數據模型是數據特徵的抽象和描述。
就如樓盤模型描述樓盤,戶型模型描述房子一樣,數據模型是用來描述數據的一組簡單易懂便於計算機實現的符號的集合。
再說數據結構,如果還拿房子舉例的話,我認為說戶型模型或者戶型結構都是沒有問題的。
目前的實際使用中對數據字典有兩種不同的說法或用法。
一種說法是:在軟體工程中,數據字典是作為分析階段的工具,供人查詢對不瞭解的條目的解釋,例如:描述某個數據表中都包含了哪些數據項,某個數據項的業務含義是什麼等。
另外一個說法是:對基礎資料參照的管理,我們還拿房子舉例,一個房子的資料字典,包括,房屋的朝向;房屋的戶型;房屋的性質等。
四、數據倉庫、數據湖、數據工廠、數據中臺
數據倉庫是需要事先定義好數據結構,然後是報表取數。而大數據的發展,數據形式越發多樣化,傳統數倉這種定義數據結構、取數、出表的模式,已經很難滿足業務上的需求了。
因此,數據湖以原始格式儲存各種型別資料,以及按需進行數據結構化處理、數據清理、提供數據服務,以更加靈活的方式支援多種應用場景的能力越來越受到人們的歡迎。
關於數據倉庫和數據湖,如果大家感興趣的話,我可以之後再專門寫一篇文章唷。
再來說說這個數據工廠。前邊提到的數據倉庫和數據湖,重點側重於數據的儲存,本質上是“原材料”的儲存系統,而要讓數據發揮價值,就必須將這個“原材料”需要加工成使用者需要的“產品”。
數據工廠就是根據使用者的需求,將原始數據進行加工、處理、清洗、轉換、彙總等各種加工工序,生產出能夠被使用者直接使用的數據產品。數據工廠包含了多種數據處理的工具,以滿足不同處理工序的作業需要,例如:數據來源連線、數據同步、數據清洗、數據轉換、數據工作流、數據目錄、數據服務等等。
最後,再說說數據中臺,儘管之前的文章已經說過很多次了。其實,如果從功能構件上來講,我認為:數據中臺就是數據湖+數據工廠的一個綜合。但不同的是數據中臺更注重數據應用,離業務更近,強調一個快速敏捷。
數據中臺不僅關注原始數據的儲存及處理加工,更側重將數據處理過程中,常用的邏輯、演算法、標籤、模型進行沉澱,而形成一系列的“數據半成品”,然後根據前臺業務的需要,快速生產出使用者需要的“數據產品”。數據中臺能力強弱,要看這個“數據半成品”積累的多少了。
在數據生產的整個鏈條中,對於如何築湖、如何選址建廠、按什麼工序加工、以及如何配送,這是技術部門的事情,而“數據半成品”的沉澱和積累,卻不是技術能決定的了。因此,數據中臺的建設更強調需求驅動、業務主導。
以上就是大數據的各種概念。還有不清楚的歡迎在臉書上私訊我唷~
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書並私訊「10」,送你十週入門數據分析電子書唷!