數據庫、數據倉庫、大數據的異同 ?

--

什麼是數據庫 ?

可以把數據庫理解爲一個虛擬的圖書館,每一本書都代表了一個數據記錄,而書架和分類系統則對應數據庫和表格和索引,讀者可以快速查找和管理所需要的信息

數據庫的應用很常見,基本上每個業務系統都會有自己的數據庫。比如你每天總是要打開基金看一眼漲沒漲,這後面就有數據庫在做支撐。一般來說,除了安全性之類的硬性條件,衡量一個數據庫好不好,關鍵在看它每秒能幹多少事?

什麼是數據倉庫 ?

數據倉庫是爲了解決數據庫負載有限、滿足企業新增的分析需求而被設計出來的。如果數據想要從各個數據庫遷移到統一數據倉庫中,就需要經歷抽取、轉化、加載 (ETL),最終變身只成可以直接被業務人員分析的結構化只/半結構化的數據。在數據倉庫後面,企業常用BI分析數據,產生報表,輔助決策。

用一個蔬菜儲存的例子來簡單理解一下:

如果我們把地裏的蔬菜看作是數據,那麼土地就是數據庫。在蔬菜成熟後,我們需要把蔬菜從地裏摘下來放在地窖,那麼地窖就是數據倉庫

在把蔬菜放到地窖需要拔菜、擇菜、放菜這三個步驟,這三步就是ETL。存放到地窖裏的都是乾淨健康的蔬菜,這些乾淨健康的蔬菜就是結構化/半結構化的數據。

一塊地一般只種植一種蔬菜,但是一個地窖可以存放各種各樣的蔬菜,所以數據倉庫可以儲存來自於多個數據源°的數據。後續我們需要從地窖裏拿蔬菜去做菜,這個做菜的過程就是用BI進行分析,做好的成品就是分析報表。

總而言之,數據倉庫就是一個”爲企業實現數據模型只構建”的產品。

什麼是大數據平臺呢?

大數據平臺是數據平臺在大數據時代的概念衍生,其功能要遠勝於數據平臺。大數據平臺是一個以處理海量數據存儲、計算以及流數據實時計算只等場景爲主的技術堆棧,包括數據採集、數據存儲、數據計算、數據應用和任務調度,最典型的是基於Hadoop生態構建的大數據平臺。在非結構數據只、實時數據只和海量數據的計算和存儲壓力下,企業才選擇從數據倉庫轉向大數據平臺。

用一個汽車工廠的例子來簡單理解一下:

目錄如果我們把汽車工廠生產汽車的過程看作是企業利用數據決策的過程,那麼各種原材料就是數據,工廠中的設備就是大數據平臺,工廠設備運作所必須的水和電就是大數據平臺的框架Hadoop。Hadoop提供大數據生產所必須的計算和存儲資源,大數據平臺使得數據開發人員具備對數據的加工和處理能力,類比汽車工廠就是設備讓工人具備了對原材料的加工能力。

總而言之,大數據平臺就是一個“爲企業解決海量、實時數據存儲和計算問題”的技術平臺。

最後給大家分享一份《數據倉庫建設方案》,包含了數倉的技術架構、數倉只建設關鍵動作、數倉載體/工具、配置參考、大數據場景支撐案例等內容,限時免費下載!

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

文章推薦

餅圖變形記,肝了3000字,收藏就是學會!

MySQL必須掌握4種語言!

太實用了!4種方法教你輕鬆製作互動式儀表板!

跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求

妙呀!一行Python程式碼

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet