閱讀建議:本文為乾貨總結類文章,長期有用,建議先收藏再閱讀。
解決痛點:最近收到一些同學的私信,諮詢較多的一個問題是:“做數據分析需要學習哪些統計學知識?”因此想分享一些工作中應用較多的統計學方法。
00.序言
從起源角度來看,數據分析是「統計學」與「計算機」的交叉學科,統計知識應用其中;從工作角度來看,應用統計學知識,可以更為科學的度量資料對業務的價值。
因此,作為數據分析同學,掌握基礎的統計學知識是非常有必要的。下面,為大家總結了「工作中常用的10種統計學方法」。
01.描述性統計「常用指數:5星」
描述性統計,透過概括性的數學方法及圖表方式,描述業務資料及其分佈現狀,在工作中是最為常用的。
涵蓋內容如下:
工作中主要應用場景如下:
02.假設檢驗「常用指數:5星」
假設檢驗,用於判斷樣本與樣本、樣本與總體之間的差異,是由抽樣誤差所導致的,還是由於本身就存在差異。其中主要涵蓋「引數檢驗」和「非引數檢驗」,兩者的概念如下:
引數檢驗:假設資料服從某一分佈(一般為正態分佈),透過樣本引數的估計量對總體引數進行檢驗。
非引數檢驗:不考慮總體分佈形式,直接對資料的分佈進行檢驗。
涵蓋內容如下:
工作中主要應用場景如下:
03.列聯表分析「常用指數:3星」
列聯表分析,用於判斷離散型變數之間是否存在明顯的相關性。例如:績效的等級與性別是否存在相關性。
涵蓋內容如下:
工作中主要應用場景如下:
04.相關分析「常用指數:4星」
相關分析,用於判斷現象之間的某種關聯關係以及關聯程度,例如:正相關、負相關,在探索性分析中應用較為頻繁。
涵蓋內容如下:
工作中主要應用場景如下:
05.方差分析「常用指數:2星」
方差分析(又稱F檢驗),用於度量兩個及兩個以上樣本均值差異的顯著性檢驗。
涵蓋內容如下:
06.迴歸分析「常用指數:5星」
迴歸分析,用於日常指標的擬合,以及對於未來趨勢的預測,在工作中應用較為廣泛。
涵蓋內容如下:
工作中主要應用場景如下:
07.聚類分析「常用指數:4星」
聚類分析,用於將使用者/內容,在沒有先驗性指引的情況下,分門別類的進行劃分。
涵蓋內容如下:
工作中主要應用場景如下:
08.判別分析「常用指數:4星」
判別分析(分類問題),透過研究物件的特徵判斷所屬的類別。與聚類分析的差異在於,聚類分析在分析前,不知道類別有幾類以及是什麼,而判別分析是在總體類別已知的情況下,對新樣本判斷所屬群體。
涵蓋內容如下:
工作中主要應用場景如下:
09.主成分分析「常用指數:2星」
主成分分析(Principal Component Analysis,PCA),是將一組可能的相關性變數,轉化成為一組線性不相關的變數,轉化後的這組變數叫做主成分。
主成分分析最大的作用在於「降維」,也可用於「探索變數之間的關係」。簡單解釋一下,在搭建模型過程中,往往會選擇諸多變數作為特徵,而這些變數之間也往往存在著相關性,這會引起「多重共線性問題」。因此,需要一種方式,將這些變數轉化為相對獨立且儘可能多的涵蓋原始變數的資訊,主成分則是其中的一種方式,將原始變數轉化為幾個相互無關的新變數。
掃盲 — 多重共線性問題
自變數(特徵)之間由於存在相關關係,從而使得模型估計失真(結果不穩定,例如:隨機森林特徵貢獻度,多次執行出來的結果差異較大)。
10.因子分析「常用指數:2星」
因子分析的作用同主成分分析一樣,同樣是為了「降維」。原理是在多自變數之間,尋找潛在的因子,相似變數歸為一個因子,透過因子替代原有的自變數。
與主成分分析相同之處:起到清理原始自變數中內在關係的作用。
與主成分分析不同之處:主成分分析重在歸總變數的資訊,而因子分析重在解釋變數的資訊,主成分分析是因子分析的子集。
以上10種統計學方法在工作中較為常見,但方式不止於此,還包括:信度分析、生存分析、多重響應分析、距離分析等。有待你在工作中不斷探索、發掘場景,並將知識應用其中。
以上就是本期的內容分享。碼字不易,如果覺得對你有一點點幫助,歡迎「關注」「點贊」「分享」哦,我會持續為大家輸出優質的內容喔!
文章图片来源:小火龙说数据
文章連結:https://mp.weixin.qq.com/s/xDIbCOwyX5_OWQOChES7NQ
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~
文章推薦
◆何謂BI商業智慧?BI與報表有何不同,80%的IT人都不懂!
回顧十週入門數據分析系列文:
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,並在臉書置頂帖子下回復SQL50,會有MySQL經典50題及答案贈送唷!