為了解大家對資料分析的真正需求,我特意列出了第一節關於資料分析入門流程的內容,希望大家能夠多提建議!
什麼是資料分析?
無論你是剛接觸資料分析,還是一位數據分析大神,我想很多人都不知道,資料分析究竟是什麼,或者說資料分析的本質是什麼。
其實很多公司和企業,也不明白資料分析是什麼,很多人從網路看到公司招資料分析師,進入了之後發現是做什麼的呢?就是天天用sql取數給業務用,十分機械而且也沒成就感。
這叫做資料分析嗎?當然不叫!所以我們要先對資料分析有個整體的認知。
先看一下教科書上的定義:
資料分析是用恰當的統計分析方法對收集來的大量資料進行分析,然後加以處理和加工,以開發資料的功能、挖掘資料的價值,主要目的是為了清洗出有用的資訊並形成結論。
這個定義過於繁瑣,很多剛剛接觸資料分析的人都不一定能看得懂,因此我自己給資料分析下了個定義:
資料分析,就是針對某個問題,將獲取後的資料用分析手段加以處理,並發現業務價值的過程。
大家可以看到我把五個關鍵詞給標紅了,這一句話,基本上可以包含資料分析所必須的流程點,我們一個個講。
一、問題
首先第一個關鍵詞是“問題”,我們可以把這個詞解釋“發現問題”或者是“目標”。
資料分析一定要有目標!哪怕業務人員給你提出的問題或者需求,根本不是那麼明確和清晰,你也要找到自己要分析的目標!
舉個最簡單的例子,業務方最近新上線了一個功能,想讓你分析一下目前這個功能的使用情況。這時候你該怎麼做?
你會覺得“分析業務功能情況”是目標,然後根據這個模糊的目標你只能做一些描述性的統計分析,告訴業務方每天UV的最大值,最小值,中位數,平均數,方差,標準差……看起來很厲害的樣子,但這些資料有啥意義呢。
這樣子的目標就是在做樣子,應該怎麼做呢?
要明確業務方的需求是什麼,然後分析業務最終的目的,把這個目的進行拆解;比如剛才的例子,業務真正想要了解的是什麼,是這個新功能的目的,是為了提升客戶的留存率?還是為了提升客戶的轉化率?還是其他的?然後再把這個目的給拆解,確定我們的指標,然後再進行分析。
這才是真正的目標思維。
二、獲取
第二個關鍵詞是“獲取”,叫做“資料獲取”或者“資料採集”。
資料採集就是將原始資料從資料庫中取出來,主要工作是:搞清楚資料放在哪裡+怎麼把資料取出來。
1、資料存放在哪裡?
很簡單的答案,很多人都知道公司的業務資料一般都是放在資料庫裡的,但是相同的資料庫,資料來源不一樣相同,我們所取的資料一定保證資料來源的一致,否則會造成資料混亂。
比如說,不同的資料儲存系統,mysol、oracle、sqlserver等等,資料倉庫結構以及各庫表之間的關聯方式也可能有所不同,星型?雪花型?資料指標是否相同,名稱、含義、欄位類型、約束條件等等?是否經過了ETL處理,清洗規則是什麼樣的?這些都是我們在進行資料提取之前所必需瞭解的。
2、那麼怎麼把資料取出來呢?
其實只要搞清楚了資料放在那裡,取出來就是水到渠成的事情。
一般來說SQL是進行資料採集的必備技能,目前也是資料分析實際業務場景中最常使用的取數方式。當然了,能取出什麼樣的資料,也要看你是否精通sql,比如單張資料庫表的提取很容易就做到了,但是跨表查詢提取的時候很多人就不行了。
再比如更為複雜一點的複雜查詢、聯機處理等等,這些做數倉的人用的很多,我們資料分析師不必設計這麼深,我們只要熟練掌握就行了;
當然,有很多資料分析師最後也做了數倉師、架構師,如果你以後考慮往這個方向發展,sql肯定是要精通的。
三、資料
第三個關鍵詞是“資料”,這裡說的資料是廣義上的資料,包括資料庫中的資料,也可以概括為資料場景,也可以理解為經過清洗後的資料。
總之,這個資料指的是我們可以直接拿來分析的資訊,而不是一堆髒亂差的原始資料。
1、資料庫資料
資料庫資料這裡就不細講了,我們只要知道資料庫中的資料都有哪些就行了,比如業務資料、日誌資料之類的。
2、資料場景
很多人都問我為什麼看資料看的好好的,一到實際業務場景中都歇菜了?
這是因為在實際業務分析中,我們分析的不是資料,而是場景。那我們怎麼根據場景找資料呢?最重要的方法是建立分析指標體系:
我很喜歡用點線面體的定義來解釋指標體系,如果用點線面來解釋,搭建分析指標體系就是分析整個“體”,將分析框架的體系化,明確每個點都是什麼指標,任何一個分析路徑都能對應到指標。
指標體系搭建一般都是要放在資料提取之前做的工作,方便我們這一步的資料清洗。以電商為例,我們在取數前遵循“人貨場”的思維邏輯,這就是我們的體,我們的大體指標框架。然後我們要找人貨場各自的業務邏輯,也就是場景,電商常用的業務分析場景有哪些呢?無非就是銷售、商品、渠道、競品、會員等等,這就是我們的面。而商品可進一步細分為商品的庫存、商品的利潤以及關聯銷售分析,這就是線和點。
總結起來就是,在整個業務分析體系中,確保先分析什麼,後分析什麼,從體及線,從線及點,有了點,我們就知道該需要什麼資料了。
3、清洗資料
資料分析工作裡資料清洗基本上比較佔時間,包括髒資料的排除、重複資料檢索、無效資料等等,如果你的資料來源比較混亂,那麼還需要篩選資料指標、整合核心資料等等工作,總體來說比較耗費精力。
最後要注意一點,很多人喜歡採集大數據,認為資料越多越好,不管什麼規則、質量好壞,這是不對的,我們在進行資料獲取的時候,一定要保證我們資料的質量,避免髒亂差資料。
四、分析手段
這裡就是我們狹義上所說的資料分析了,根據實際場景需要可以分為四種:描述分析、統計分析、挖掘分析、建模分析
1、描述分析
其實就是資料分析思維,其實業務很喜歡讓你做描述性的分析,因為不會用到演算法之類的東西,業務能看得懂,就能跟你扯皮。
描述分析包括:
- 對比、細分、趨勢等三大基礎思維
- 結構化、演繹推理、假設等常用分析思維
- 指標思維、系統思維等常用業務思維
2、數理分析
數理分析,基本要用到一些數理統計學基礎的分析方法,比如:
- 分類分析
- 聚類分析
- 相似分析
- 假設檢驗分析
- 迴歸分析
- ………..
3、建模分析
第三個是建模分析,也就是資料分析模型,常見的一些我們都會講到:
- 波士頓模型
- ABtest模型
- RFM模型
- 購物籃模型
- …………
4、挖掘分析
最後就是挖掘分析,基於我們的一些資料分析和挖掘工具,比如常用的excel和python、BI等,這裡不多做介紹。
五、業務價值
最後一個關鍵詞是“業務價值”,這是資料分析最核心也是最終的目的
企業是做什麼的呢?企業的作用是向市場提供產品或服務,為客戶創造價值。那我們資料分析就是為企業提供服務和產品,為企業創造價值。
價值體現在兩點:
一是將盈利時間拉長,一是將單位時間內盈利量做大。
第一點,需創造的價值讓越來越多的客戶知道並認可,獲得使用者粘性,從而實現持續增長,其實就是使用者體驗;第二點,需提高企業創造價值的效率。
所以我們要做的資料分析也要跟緊緊貼合這兩個點,這就要求我們在進行資料分析最後一步 — — 資料視覺化、數據報告等等時,要緊緊貼合業務,給領導或者業務最想看的資料,這也是一門學問。
總結
以上就是我對資料分析流程的個人理解,大家可以與我多多交流~
為了讓後面的內容更能解決大家的實際問題,我想了解一下大家對於資料分析的認知基礎和需求點,歡迎留下你的足跡~