做資料分析統計學知識是必不可少的,統計學是資料分析的基石。統計學是一種利用數學理論來進行資料分析的技術,通過統計學我們可以用更富有資訊驅動力和針對性的方式去對資料進行操作,從而使得我們的分析結果更加專業。今天我就來說說資料分析中最基礎的統計學知識:描述統計
什麼是描述性統計?
我們在做了相關的資料統計之後,將會收集到一系列複雜的資料資訊,在這種情況下,僅僅單靠“看”資料,會讓人一臉茫然。這時候就需要用描述性統計分析來了解資料的大致情況。
描述性統計要就是對調查總體所有變數的有關資料做統計性描述,主要包括資料的頻數分析、資料的集中趨勢分析、資料離散程度分析、資料的分佈、以及一些基本的統計圖形。
常用的指標有均值、中位數、眾數、方差、標準差等等。資料的集中趨勢一般採用平均值、中位數表示。資料的離散程度一般採用方差、標準差表示。資料的分佈情況一般採用直方圖表示。
幾個重要指標
1、眾數
一組資料中出現最多的變數即為眾數。
比如一組資料:西瓜、西瓜、南瓜、西瓜、冬瓜、蘋果、蘋果,其眾數自然就是西瓜,在資料量比較大時可以藉助統計軟體進行計算,excel中函數為mode,python中暫時沒有實現眾數的函數,但可以曲線救國。
2、均值
平均值這個大家都知道就是計算一組資料的平均值,瞭解這組資料的平均水平。在使用均值分析的過程中要注意,平均值非常容易受極值的影響,當資料集中出現極值時,呈現的平均水平結果就可能會出現不客觀的現象。比如拿你的收入和馬化騰、馬雲的收入放在一起算平均值,得出來的結果肯定不能代表你們三個平均收入水平。
3、中位數
將一組資料按照從小到大的順序排列時,最中間的資料就是中位數。當資料個數為奇數時,中位數即最中間的數,當資料個數為偶數時,中位數為中間兩個數的平均值。中位數不受極值影響,因此對極值缺乏敏感性。
4、分位數
中位數從中間點將全部資料等分為兩部分。與中位數類似的還有四分位數、十分位數和百分位數等。它們分別是用3個點、9個點和99個點將資料4等分、10等分和100等分後各分位點上的值。這裡簡單介紹一下比較常見的四分位數的使用方法:
四分位數是指在把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值,分割後我們會通過5個數值來描述資料的整體分佈情況。
- 下界:最小值,即第0%位置的數值;
- 下四分位數:Q1,即第25%位置的數值;
- 中位數:Q2,即第50%位置的數值;
- 上四分位數:Q3,即第75%位置的數值;
- 上界:最大值,即第100%位置的數值。
優點是可以用來對比不同類別資料的整體情況,還可以識別出可能的異常值。缺點是無法反映資料的波動大小
計算方式:
①先求出中位數Q2:
首先我們要將所有數值以從小到大,從左到右的順序進行排序,假設有n個數如果n是奇數,中位數就是位於中間位置的數值。如果n是偶數,中位數則是中間兩個數的平均值。
②求出下四分位數和上四分位數:
下四分位數Q1的位置=(n+1)x0.25;上四分位數Q1的位置=(n+1)x0.75
舉個例子:
我們根據下面的資料,分析一下就餐人員距離的問題。
以上圖示已經將資料進行排列,總共有18個數據,接下來我們套用公式計算分別計算出下四分位數Q1、中位數Q2、上四分位數Q3的位置和數值:
中位數Q2:Q2位置=(18+1)x0.5=9.5,即中位數為第9和第10項的均值,Q2=(4+6)/2=5
下四分位數Q1:Q1位置=(18+1)x0.25=4.75,即下四分位數為第4和第5項的均值,Q1=(2+2)/2=2
上四分位數Q3:Q3位置=(18+1)x0.75=14.25,即上四分位數為第14和第15項的均值,Q3=(11+14)/2=12.5
(3)箱型圖
在算出四分位數之後,可能有一些理科思維不太順暢的人會看懵了,會疑問到這是表示什麼呀?這時,就需要用到資料可視化了,用更加直觀的形式去展示和分析資料的情況。箱型圖就是四分位數的專用視覺化圖形工具,它能顯示出一組資料的最大值(上界)、最小值(下界)、中位數、及上下四分位數。用Excel就能直接做出箱型圖
根據就餐人員距離的資料計算得出四分位數後,以箱線圖呈現,我們發現中位數離下四分位數較近,這代表大部分數值集中在箱線圖下端,集中在下四分位數和中位數之間。箱線圖的作用主要有兩個:1比較不同資料集、2識別異常值。
5、標準差
在統計學中,我們會用“離散程度”(即是變異性、波動大小)來衡量資料的穩定性。而“標準差”就是統計學當中用來在海量雜亂無章的資料中衡量資料相對於平均值的大小。
優勢:衡量波動大小缺點:如果兩個資料差別比較大,那麼就無法比較。
計算公式:
假設有一個數據集X1、X2、X3
平均值=μ
方差=((X1-μ)2+(X2-μ)2+(X3-μ)2)/n
標準差σ=√ ̄方差
標準差小就證明資料整體波動水平越小。在實際生活中經常會用來計算球員的發揮穩定性。
標準差雖然能表示資料整體的波動,但是它有個缺點:如果兩個資料差別比較大的情況下那麼就無法進行比較。
6、離散係數
離散係數又稱變異係數, 它是一組資料的標準差與其相應的平均數之比。
變異係數=標準差σ/平均值μ
離散係數主要用於比較不同樣本資料的離散程度。離散係數大,說明資料的離散程度越大,平均指標(一般指平均數)的代表性越差,離散係數小,說明資料的離散程度也小。平均指標(一般指平均數)的代表性越好。
7、標準分:對資料進行歸一化處理
標準分主要是用來計算出某個數值在資料中的相對位置的,標準分又叫Z分數或是標準化值。標準分佈又稱正態分佈
計算公式:
假設有一個數據集X1、X2、X3
平均值=μ
標準差=σ
X2的標準分Z2=(X2-μ)/σ
標準分=某個數值距離平均值多少個標準差,通過標準分我們就可以知道這個數值與平均值的相對接近程度。標準分=0,數值=平均值;標準分>0,數值>平均值;標準分<0,數值<平均值
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!