「乾貨」數據分析常用的10種統計學方法,附上重點應用場景

閱讀建議:本文為乾貨總結類文章,長期有用,建議先收藏再閱讀。

解決痛點:最近收到一些同學的私信,諮詢較多的一個問題是:“做數據分析需要學習哪些統計學知識?”因此想分享一些工作中應用較多的統計學方法。

00.序言

從起源角度來看,數據分析是「統計學」與「計算機」的交叉學科,統計知識應用其中;從工作角度來看,應用統計學知識,可以更為科學的度量資料對業務的價值。

因此,作為數據分析同學,掌握基礎的統計學知識是非常有必要的。下面,為大家總結了「工作中常用的10種統計學方法」。

01.描述性統計「常用指數:5星」

描述性統計,透過概括性的數學方法及圖表方式,描述業務資料及其分佈現狀,在工作中是最為常用的。

涵蓋內容如下:

工作中主要應用場景如下:

02.假設檢驗「常用指數:5星」

假設檢驗,用於判斷樣本與樣本、樣本與總體之間的差異,是由抽樣誤差所導致的,還是由於本身就存在差異。其中主要涵蓋「引數檢驗」和「非引數檢驗」,兩者的概念如下:

引數檢驗:假設資料服從某一分佈(一般為正態分佈),透過樣本引數的估計量對總體引數進行檢驗。

非引數檢驗:不考慮總體分佈形式,直接對資料的分佈進行檢驗。

涵蓋內容如下:

工作中主要應用場景如下:

03.列聯表分析「常用指數:3星」

列聯表分析,用於判斷離散型變數之間是否存在明顯的相關性。例如:績效的等級與性別是否存在相關性。

涵蓋內容如下:

工作中主要應用場景如下:

04.相關分析「常用指數:4星」

相關分析,用於判斷現象之間的某種關聯關係以及關聯程度,例如:正相關、負相關,在探索性分析中應用較為頻繁。

涵蓋內容如下:

工作中主要應用場景如下:

05.方差分析「常用指數:2星」

方差分析(又稱F檢驗),用於度量兩個及兩個以上樣本均值差異的顯著性檢驗。

涵蓋內容如下:

06.迴歸分析「常用指數:5星」

迴歸分析,用於日常指標的擬合,以及對於未來趨勢的預測,在工作中應用較為廣泛。

涵蓋內容如下:

工作中主要應用場景如下:

07.聚類分析「常用指數:4星」

聚類分析,用於將使用者/內容,在沒有先驗性指引的情況下,分門別類的進行劃分。

涵蓋內容如下:

工作中主要應用場景如下:

08.判別分析「常用指數:4星」

判別分析(分類問題),透過研究物件的特徵判斷所屬的類別。與聚類分析的差異在於,聚類分析在分析前,不知道類別有幾類以及是什麼,而判別分析是在總體類別已知的情況下,對新樣本判斷所屬群體。

涵蓋內容如下:

工作中主要應用場景如下:

09.主成分分析「常用指數:2星」

主成分分析(Principal Component Analysis,PCA),是將一組可能的相關性變數,轉化成為一組線性不相關的變數,轉化後的這組變數叫做主成分。

主成分分析最大的作用在於「降維」,也可用於「探索變數之間的關係」。簡單解釋一下,在搭建模型過程中,往往會選擇諸多變數作為特徵,而這些變數之間也往往存在著相關性,這會引起「多重共線性問題」。因此,需要一種方式,將這些變數轉化為相對獨立且儘可能多的涵蓋原始變數的資訊,主成分則是其中的一種方式,將原始變數轉化為幾個相互無關的新變數。

掃盲 — 多重共線性問題

自變數(特徵)之間由於存在相關關係,從而使得模型估計失真(結果不穩定,例如:隨機森林特徵貢獻度,多次執行出來的結果差異較大)。

10.因子分析「常用指數:2星」

因子分析的作用同主成分分析一樣,同樣是為了「降維」。原理是在多自變數之間,尋找潛在的因子,相似變數歸為一個因子,透過因子替代原有的自變數。

與主成分分析相同之處:起到清理原始自變數中內在關係的作用。

與主成分分析不同之處:主成分分析重在歸總變數的資訊,而因子分析重在解釋變數的資訊,主成分分析是因子分析的子集。

以上10種統計學方法在工作中較為常見,但方式不止於此,還包括:信度分析、生存分析、多重響應分析、距離分析等。有待你在工作中不斷探索、發掘場景,並將知識應用其中。

以上就是本期的內容分享。碼字不易,如果覺得對你有一點點幫助,歡迎「關注」「點贊」「分享」哦,我會持續為大家輸出優質的內容喔!

文章图片来源:小火龙说数据

文章連結:https://mp.weixin.qq.com/s/xDIbCOwyX5_OWQOChES7NQ

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

何謂BI商業智慧?BI與報表有何不同,80%的IT人都不懂!

那些年,背過的SQL題

MySQL常用指令碼

商業分析應該怎麼做?一篇文章把思維和工具說清楚了!

會員流入流出視覺化的最佳選擇,桑基圖!

回顧十週入門數據分析系列文:

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,並在臉書置頂帖子下回復SQL50,會有MySQL經典50題及答案贈送唷!

--

--

數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/