資料分析中常用的五個統計學基本概念,你懂幾個?

統計學到底有多重要?

在資料分析工作中,利用統計學,我們可以更深入、更細緻地觀察資料是如何進行精確組織的,並且基於這種組織結構確定資料分析的方法,來獲取更多的資訊。今天給大家介紹資料分析中常用的五個統計基本概念。

統計學——特徵

上圖中,中間的直線表示資料的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數,即資料中的25%要低於該值。第三個四分位數是第七十五百分位數,即資料中的75%要低於該值。而最大值和最小值表示該資料範圍的上下兩端。

箱形圖很好地說明了基本統計特徵的作用:

  • 當箱形圖很短時,就意味著很多資料點是相似的,因為很多值是在一個很小的範圍內分佈;
  • 當箱形圖較高時,就意味著大部分的資料點之間的差異很大,因為這些值分佈的很廣;
  • 如果中位數接近了底部,那麼大部分的資料具有較低的值。如果中位數比較接近頂部,那麼大多數的資料具有更高的值。基本上,如果中位線不在框的中間,那麼就表明了是偏斜資料;
  • 如果框上下兩邊的線很長表示資料具有很高的標準偏差和方差,意味著這些值被分散了,並且變化非常大。如果在框的一邊有長線,另一邊的不長,那麼資料可能只在一個方向上變化很大

統計學——概率分佈

常見的概率分佈,均勻分佈(上)、正態分佈(中間)、泊松分佈(下)

  • 均勻分佈是其中最基本的概率分佈方式。它有一個只出現在一定範圍內的值,而在該範圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變數:0或另一個值。分類變數可能具有除0之外的多個值,但我們仍然可以將其視覺化為多個均勻分佈的分段函數
  • 正態分佈,通常也稱為高斯分佈,具體是由它的平均值和標準偏差來定義的。平均值是在空間上來回變化位置進行分佈的,而標準偏差控制著它的分佈擴散範圍。與其它的分佈方式的主要區別在於,在所有方向上標準偏差是相同的。因此,通過高斯分佈,我們知道資料集的平均值以及資料的擴散分佈,即它在比較廣的範圍上擴充套件,還是主要圍繞在少數幾個值附近集中分佈。
  • 泊松分佈與正態分佈相似,但存在偏斜率。象正態分佈一樣,在偏斜度值較低的情況下,泊松分佈在各個方向上具有相對均勻的擴散。但是,當偏斜度值非常大的時候,我們的資料在不同方向上的擴散將會是不同的。在一個方向上,資料的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分佈,那麼我們知道有很多演算法,在預設情況下高思分佈將會被執行地很好,因此首先應該找到那些演算法。如果是泊松分佈,我們必須要特別謹慎,選擇一個在空間擴充套件上對變化要有很好魯棒性的演算法。

統計學——降維

上圖中的立方體表示我們的資料集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的資料,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。

通過降維,我們將3D資料展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。

另一種方式是我們可以通過特徵剪枝來減少維數。利用這種方法,我們刪除任何所看到的特徵對分析都不重要。

例如,在研究資料集之後,我們可能會發現,在10個特徵中,有7個特徵與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那麼,這3個低相關性的特徵可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。

用於降維的最常見的統計技術是PCA,它本質上建立了特徵的向量表示,表明了它們對輸出的重要性,即相關性。PCA可以用來進行上述兩種降維方式的操作。

統計學——過取樣和欠取樣

在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。

欠取樣意味著我們將只從樣本多的分類中選擇一些資料,而儘量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分佈。我們只是通過更少的抽樣來讓資料集更均衡

過取樣意味著我們將要建立少數分類的副本,以便具有與多數分類相同的樣本數量。副本將被製作成保持少數分類的分佈。我們只是在沒有獲得更多資料的情況下讓資料集更加均衡。

統計學——貝葉斯統計

假設我給了你一個骰子,問你擲出6點的機率是多少,大多數人都會說是六分之一。

但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的資料,而給你作弊的骰子的因素並沒有被考慮進去。

貝葉斯統計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關於事件發生概率的資料。方程中的P(E|H)稱為可能性,根據頻率分析得到的資訊,實質上是現象正確的概率

例如,如果你要擲骰子10000次,並且前1000次全部擲出了6個點,那麼你會非常自信地認為是骰子作弊了。如果頻率分析做的非常好的話,那麼我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基於其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。

正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在內了。當你覺得之前的資料不能很好地代表未來的資料和結果的時候,就應該使用貝葉斯統計方法。

回顧系列文:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,私訊我10,送你十週入門數據分析電子書唷!期待你與我的互動!

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store