從0–1教你入門、進階資料分析,這七大知識清單值得收藏

數據分析那些事
14 min readDec 29, 2022

--

其實資料分析根本算不上是一門學科,實際公司裡用到的業務分析,與大多數高校裡教的資料分析/數學分析相差是蠻大的,除了資料分析的崗位分類比較混亂之外,也跟不同行業的業務實際有關

根據從業這麼多年的經驗,如果為了儘快找到一份工作,需要掌握三個核心的點:

資料分析基礎(一定的資料思維、統計學基礎和sql能力) — — 能做最基本的取數工作
資料分析能力(使用各種分析工具、套用資料模型、做視覺化報表等) — — 能做簡單的分析工作
業務分析經驗(熟悉各種業務邏輯和指標體系) — — 能做複雜的業務拆解

因此對新人來說,強烈建議按照下面的學習路徑進行學習:

1、資料分析常用的思維
2、統計學相關理論與基礎
3、SQL與資料提取
4、快速套用的分析模型
5、專業BI工具和軟體選型
6、資料視覺化原理
7、業務指標體系和業務練習

1、資料分析常用的思維

判斷一個人做資料分析的水平,不是看他學習了幾種工具,最核心的差距在於思考問題的思維能,這是資料分析的本質,也是最容易被人忽視的點

常用的思維有很多種,下面簡單舉幾個例子:

(1)對比思維:

通常來說是把兩個相互聯絡的指標資料進行比較,從數量上展示和說明研究物件規模的大小

比如說,老闆讓你分析一下今年企業的發展情況,你拉表之後發現銷售額比去年增長了10%,淨利潤比去年增長了5%,成本消耗比去年降低了3%。銷售額、淨利潤、成本消耗就是對比的指標,我們不能拿銷售額的資料去對比成本資料,這就是指標的對比與統一。

(2)細分思維:

比如某次考試小明的名次很低,如果他的父母不懂細分,一定會不由分說地訓斥小明,根本找不到小明成績差的真實原因。

而如果他們懂得細分分析,應該怎麼做呢?應該將名次的維度轉化為科目,然後分析每個科目的成績,也許會發現小明只有某個科目沒有考好,再針對這個短板採取相應的策略,這就是細分分析的思想。

(3)趨勢思維

你可以簡單地把趨勢分析定義為對比分析的一種,一般來說是按照時間的維度,對某一資料或者不同資料變化趨勢進行差異化研究,以及對資料的下一步變化進行預測。

趨勢分析一般而言,適用於產品核心指標的長期跟蹤,比如點選率,GMV,活躍使用者數等。做出簡單的資料趨勢圖,並不算是趨勢分析,趨勢分析更多的是需要明確資料的變化,以及對變化原因進行分析

(4)目標思維

我們在接到業務的需求之後,需要先想一下這個需求的真正核心目的是什麼?

如果知道了業務目標,那麼就可以把這樣一個取數需求變成一個分析類需求,最終的交付形式就成了一份PPT,這樣,就能避免成為取數機器。

(5)結構化思維

在面對這麼一個問題時,結構化思維方法首先做的並不是立刻著手清洗資料。而是根據對業務的理解,先為資料分析劃一個思維導圖,它的作用相當於你來到一個陌生的城市拿出百度地圖查詢乘坐交通工具到入住的酒店的路線圖。

事實上,結構化思維就是由麥肯錫提出的著名的“金字塔思維”,如下圖就是典型的結構化:

(6)演繹思維、歸納思維

很顯然,歸納是從個體屬性出發,尋找因子之間的共性,總結出一個一般的特性;而演繹則相反,是從一般整體出發,尋找事物之間的邏輯,從而得到某個個體的特性。

(7)假設思維

假設思維其實是從演繹思維中延伸出來的思維,簡單來說就是透過不斷假設、不斷論證、不斷推理、不斷推翻原假設的方式,直到去找到我們最終的真實原因或者結論。

(8)溯源思維

溯源思維簡單來說就是對問題進行細分後再細分,把問題進行分解到可以找到原因,列出解決辦法。有時候我們不僅僅只使用對比思維和細分思維就可以得出來結果,這時候要想追溯資料來源,然後基於此思考資料來源背後可能隱藏的邏輯關係,或許會有其他的資料結果。

(9)事實思維

資料分析師第一個要訓練的思維方式便是:只說事實,不說觀點。

只有分清楚觀點和事實才有繼續分析的可能性。因為觀點的溝通會出現誤差,而事實則不會。如果我們用觀點進行溝通,自然會出現大量的誤解。

2、統計學相關的理論與基礎

(1)描述型統計

描述統計是我們做資料分析的主要基礎,比如說銷售人員說今年我們的銷售情況很好,比去年要好很多。這不叫做描述統計,因為“比去年好”這個特點不是定量的資料

描述性統計裡大概有三個分類:集中趨勢、離散趨勢、分佈。集中趨勢包含平均數、中位數、眾數、分位數等,離散趨勢包含極差、平均差、方差、標準差、分位差等,分佈主要包含峰態分佈和偏態分佈

(2)推理型統計

也叫作推理性統計,他的目的是研究如何利用樣本資料去推斷總體資料的方法。他跟描述統計不一樣,描述統計是用整體的資料來描述整體特徵,推理統計是用部分資料來推理整體特徵。我們經常說的假設檢驗、取樣與過取樣、迴歸預測模型、貝葉斯模型都是推理型統計。

二項分佈:如拋硬幣n次,不同正面朝上的次數對應的機率;

幾何分佈:如拋硬幣n次,到第k次才取得第一次成功的機率服從的分佈

泊松分佈:在一定時間範圍內發生機率相同,給定其發生的平均發生的次數μ,則事件在該事件範圍內發生k次的機率服從泊松分佈

(3)假設檢驗

假設檢驗就是透過抽取樣本資料,透過小機率反證法去驗證整體假設

(4)迴歸

迴歸分析的任務就是,透過研究X和Y的相關關係,嘗試去解釋Y的形成機制,進而達到透過X去預測Y的目的。

(5)聚類

聚類是根據資料本身的特性研究分類方法,並遵循這個分類方法對資料進行合理的分類,最終講相似資料分位一組,也就是”同類相同、異類相異”

(6)貝葉斯

3、SQL與資料提取

SQL 資料提取主要學習一些SQL常用的語法順序和執行順序,然後學習一些條件子句、分組查詢和排序的細節,最後去學習表的連線和其他常用關鍵字

下面再貼個sql的學習網站吧:

SQL Server資料庫教程 — — 51自學網 (影片教程)
地址:https://www.51zxw.net/list.aspx?cid=492

老師講得很細,會一步步的教操作,前面7章看完,並跟著老師做完了所有的例子,就是入門了。

SQL Tutorial — — w3schools (示例教程)
地址:https://www.w3school.com.cn/sql/ind

入門之後,就要多學學T-SQL語言了。除了51自學網的SQL Server資料庫教程外,w3schools是一個很好的資源庫,它不止講解T-SQL語言的知識點,還有一個線上的示例資料庫提供給使用者,可以隨時隨地進行練習。

4、快速套用的分析模型

(1)帕累託模型:

帕累託分析依據的原理是20/80定律,80%的效益常常來自於20%的投入,而其他80%的投入卻只產生了20%的效益,這說明,同樣的投入在不同的地方會產生不同的效益。

(2)波士頓模型

這個模型雖然是市場模型,但是其背後的邏輯卻是資料分析,也就是矩陣模型。矩陣模型是雙維度模型,你可以從兩個維度出發對不同的指標進行定位,比如波士頓矩陣,即從兩個維度對產品或者業務進行定位,也就是產品本身和銷售的維度

(3)購物籃分析

購物籃模型的本質是關聯,關聯大家應該都很好理解,就是反映某個事物與其他事物之間相互依存關係的,在商品關聯分析的定義是,透過對顧客的購買記錄資料庫進行某種規則的挖掘,最終發現顧客群體的購買習慣的內在共性

(4)使用者行為模型

分析使用者某個行為特徵路徑,並分析其每個動作背後的行為邏輯。比如例如提交訂單後,使用者可能會返回首頁繼續搜尋商品,也可能去取消訂單,每一個路徑背後都有不同的動機。透過模型分析能快速找到使用者動機,從而引領使用者走向最優路徑或者期望中的路徑。

(5)使用者流失模型

主要應用在兩個方面:流失使用者召回、現有活躍使用者防流失,最常見的就是AARRR模型、漏斗模型等等。

(6)使用者價值模型

業務分析,很多情況下都是要在資源有限情況下,去最大化的撬動效益,如何挖掘能創造最大價值的客戶就是使用者價值模型的工作。最常見的就是RFM模型、CLV模型、顧客社交價值模型。

(7)5W2H模型

所謂的5w2h其實就是針對5個W以及2個H提出的7個關鍵詞進行資料指標的選取,根據選取的資料進行分析

(8)PEST模型

Pest分析模型最早是作為金融行業分析產生的,用到我們資料分析領域更適合做一些整體的行業分析或者市場分析,優點是注重外部環境對資料的影響,缺點是無法從內部原因出發,所以無法分析具體的實際業務問題。

(9)SWOT模型

分析法也叫態勢分析法,S是優勢、W是劣勢,O是機會、T是威脅或風險。

5、專業BI工具和軟體選型
(1)FineReport(https://www.finereport.com/tw/company

一個報表軟體,企業級的應用。用於系統的開發業務報表,資料分析報表。也可整合在OA,ERP,CRM等應用系統內,做資料報表模組,也可以開發成財務分析系統,就看你如何駕馭資料了。

兩大核心功能是填報和資料展示,但我覺得比較驚豔的一點是,它內建了大量的圖表和視覺化動效,視覺化很豐富,完全沒有印象中做報表那種古板的風格。多以它能做出格式各樣的dashboard、甚至是視覺化大屏,一點不虛。

我之前工作有段時間拿finereport,感觸最深的是開發報表很省力,10張門店報表以往做10張excel的,在他裡面就是一個引數查詢,然後批次匯出,用一個模板。

(2)Tableau (www.tableau.com)

幾乎是資料分析師人人會提的工具,內建常用的分析圖表,和一些資料分析模型,可以快速的探索式資料分析,製作資料分析報告。

因為是商業智慧,解決的問題更偏向商業分析,用 Tableau可以快速地做出動態互動圖,並且圖表和配色也非常拿得出手。

(3)FineBI (https://intl.finebi.com/zh-TW)

自助是BI工具,也是一款成熟的資料分析產品。內建豐富圖表,不需要程式碼呼叫,可直接拖拽生成,包括一些資料探勘模型也是。可用於業務資料的快速分析,製作dashboard,也可構建視覺化大屏。

tableau的平價替代,有別於Tableau的是,企業級資料分析的功能更多。從內建的ETL功能以及資料處理方式上看出,側重業務資料的快速分析以及視覺化展現。可與大資料平臺,各類多維資料庫結合,所以在企業級BI應用上廣泛,個人使用免費。

6、資料視覺化原理

從定義上說,視覺化分為科學視覺化、資料視覺化、資訊視覺化等,我們這裡說的都是狹義上的資料視覺化,至於理論之類的知識我今天就不多講了,也沒必要深入,我們只要清楚想要做出一個好的資料視覺化,需要滿足三個條件:

有三個要點,也就是信達雅。所謂的信就是要保證資料的正確性,達即是要讓使用者輕鬆接收到資料資訊,能夠對資料進行有效的表達,雅即是要保證視覺化的美觀,這三者既是視覺化的重要作用,也是實現資料視覺化的重要標準。

(1)視覺化圖表的選擇

對比類:柱狀圖、漏斗圖、詞雲圖、迷你圖
佔比類:餅圖、玫瑰圖、矩陣樹圖、雷達圖
相關類:散點圖、樹狀圖、甘特圖
趨勢類:折線圖、面積圖、瀑布圖
地理類:熱力地圖、流向地圖、點地圖

(2)視覺化排版原則

從上至下:重要的資訊內容放於上方
從左至右:重要的資訊內容放於左方
從中間到四周:重要的資訊內容放於中間
聚焦:重要的資訊內容應當集中設定
平衡:各個板塊之間的內容量不宜相差過大
簡潔:不同板塊中的內容不宜過多,以2–3個圖表為宜

7、業務指標體系和業務練習

(1)如何理解業務?

第一步:確定分析目標,如分析產品功能、原因診斷等

第二步:確定業務核心需求,將取數需求轉化為分析需求

第三步:確定核心指標,透過目標找到核心的分析指標

第四步:根據核心指標進行拆解,如常用的公式法

(2)業務關注的要點

(3)分析目標確定的步驟

吃透業務的分析需求,系統性地引導業務分析
建立分析體系,不完整的地方,有業務幫忙補充
瞭解業務邏輯和模式,補充業務知識
分析結論和成果要有明確的業務指向

(4)常見的業務場景

經營類資料分析
指收入、銷量等與企業經營活動相關分析,監控企業的執行情況,是為了發現企業運營中的問題,關注點是銷量/銷售額總體的時序變化、地區分佈、變化原因

使用者資料分析
指購買額、購買頻次、購買偏好等相關分析,目標是深入理解客戶,關注點是使用者畫像分層、RFM模型衡量使用者價值分層

銷售資料分析
定義是指銷售收入、銷售額、單價等與銷售情況直接相關的分析,目標是完成銷售任務,監控銷售銷量低的原因,提出解決方法,關注點是時序進度、落後原因、銷售單產情況

行銷/市場分析
指企業行銷/市場活動的投放、反饋、效果相關分析,目標是瞭解活動結果、最佳化活動計劃、提升活動效率關注點主要集中在ROI相關指標

(5)業務知識的來源

業務這一塊的內容是普通資料分析人的瓶頸,所以要學習的內容確實太多了,這裡也只能給大家列舉一些要點。

文章來源於:李啓方

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

餅圖變形記,肝了3000字,收藏就是學會!

MySQL必須掌握4種語言!

太實用了!4種方法教你輕鬆製作互動式儀表板!

跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求

妙呀!一行Python程式碼

回顧十週入門數據分析系列文:

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet