“作為資料分析師,掌握基礎的統計學知識是非常有必要的。”
從起源角度來看,資料分析是「統計學」與「計算機」的交叉學科,統計知識應用其中;從工作角度來看,應用統計學知識,可以更為科學的度量資料對業務的價值。
因此,作為資料分析師,掌握基礎的統計學知識是非常有必要的。下面,為大家總結了工作中常用的10種統計學方法。
描述性統計
常用指數:★★★★★
描述性統計,透過概括性的數學方法及圖表方式,描述業務資料及其分佈現狀,在工作中是最為常用的。
涵蓋內容如下:
工作中主要應用場景如下:
假設檢驗
常用指數:★★★★★
假設檢驗,用於判斷樣本與樣本、樣本與總體之間的差異,是由抽樣誤差所導致的,還是由於本身就存在差異。其中主要涵蓋「引數檢驗」和「非引數檢驗」,兩者的概念如下:
引數檢驗:假設資料服從某一分佈(一般為正態分佈),透過樣本引數的估計量對總體引數進行檢驗。
非引數檢驗:不考慮總體分佈形式,直接對資料的分佈進行檢驗。
涵蓋內容如下:
工作中主要應用場景如下:
迴歸分析
常用指數:★★★★★
迴歸分析,用於日常指標的擬合,以及對於未來趨勢的預測,在工作中應用較爲廣汎。
涵蓋內容如下:
工作中主要應用場景如下:
聚類分析
常用指數:★★★★
聚類分析,用於將使用者/內容,在沒有先驗性指引的情況下,分門別類的進行劃分。
涵蓋內容如下:
工作中主要應用場景如下:
判別分析
常用指數:★★★★
判別分析(分類問題),透過研究物件的特徵判斷所屬的類別。與聚類分析的差異在於,聚類分析在分析前,不知道類別有幾類以及是什麼,而判別分析是在總體類別已知的情況下,對新樣本判斷所屬群體。
涵蓋內容如下:
工作中主要應用場景如下:
相關分析
常用指數:★★★★
相關分析,用於判斷現象之間的某種關聯關係以及關聯程度,例如:正相關、負相關,在探索性分析中應用較爲頻繁。
涵蓋内容如下:
工作中主要應用場景如下:
列聯表分析
常用指數:★★★
列聯表分析,用於判斷離散型變數之間是否存在明顯的相關性。例如:績效的等級與性別是否存在相關性。
涵蓋内容如下:
工作中主要應用場景如下:
方差分析
常用指數:★★
方差分析(又稱F檢驗),用於度量兩個及兩個以上樣本均值差異的顯著性檢驗。
涵蓋內容如下:
主成分分析
常用指數:★★
主成分分析(Principal Component Analysis,PCA),是將一組可能的相關性變數,轉化成為一組線性不相關的變數,轉化後的這組變數叫做主成分。
主成分分析最大的作用在於「降維」,也可用於「探索變數之間的關係」。簡單解釋一下,在搭建模型過程中,往往會選擇諸多變數作為特徵,而這些變數之間也往往存在著相關性,這會引起「多重共線性問題」。因此,需要一種方式,將這些變數轉化為相對獨立且儘可能多的涵蓋原始變數的資訊,主成分則是其中的一種方式,將原始變數轉化為幾個相互無關的新變數。
掃盲 — 多重共線性問題
自變數(特徵)之間由於存在相關關係,從而使得模型估計失真(結果不穩定,例如:隨機森林特徵貢獻度,多次執行出來的結果差異較大)。
因子分析
常用指數:★★
因子分析的作用同主成分分析一樣,同樣是為了「降維」。原理是在多自變數之間,尋找潛在的因子,相似變數歸為一個因子,透過因子替代原有的自變數。
與主成分分析相同之處:起到清理原始自變數中內在關係的作用。
與主成分分析不同之處:主成分分析重在歸總變數的資訊,而因子分析重在解釋變數的資訊,主成分分析是因子分析的子集。
以上10種統計學方法在工作中較為常見,但方式不止於此,還包括:信度分析、生存分析、多重響應分析、距離分析等。有待你在工作中不斷探索、發掘場景,並將知識應用其中。
文章來源於小火龍說資料 ,作者小火龍說資料
文章連結:https://mp.weixin.qq.com/s/G0Hhcho7TnntCU3UUwc89w
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~
文章推薦
◆跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求
回顧十週入門數據分析系列文:
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!