資料分析中常用的五個統計學基本概念,你懂幾個?

統計學到底有多重要?

在回答資料分析入門要具備什麼樣的能力的問題中,我經常提到統計學知識,統計學是一種利用數學理論來進行資料分析的技術,通過統計學我們可以用更富有資訊驅動力和針對性的方式對資料進行操作。

統計學——特徵

特徵統計可能是資料科學中最常用的統計學概念。它是你在研究資料集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特徵統計並且在程式碼中實現都是非常容易的。請看下圖:

  • 當箱形圖較高時,就意味著大部分的資料點之間的差異很大,因為這些值分佈的很廣;
  • 如果中位數接近了底部,那麼大部分的資料具有較低的值。如果中位數比較接近頂部,那麼大多數的資料具有更高的值。基本上,如果中位線不在框的中間,那麼就表明了是偏斜資料;
  • 如果框上下兩邊的線很長表示資料具有很高的標準偏差和方差,意味著這些值被分散了,並且變化非常大。如果在框的一邊有長線,另一邊的不長,那麼資料可能只在一個方向上變化很大

統計學——概率分佈

我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。在資料科學領域中,這通常被量化到0到1的區間範圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。那麼,概率分佈就是表示所有可能值出現的機率的函數。請看下圖:

  • 正態分佈,通常也稱為高斯分佈,具體是由它的平均值和標準偏差來定義的。平均值是在空間上來回變化位置進行分佈的,而標準偏差控制著它的分佈擴散範圍。與其它的分佈方式的主要區別在於,在所有方向上標準偏差是相同的。因此,通過高斯分佈,我們知道資料集的平均值以及資料的擴散分佈,即它在比較廣的範圍上擴充套件,還是主要圍繞在少數幾個值附近集中分佈。
  • 泊松分佈與正態分佈相似,但存在偏斜率。象正態分佈一樣,在偏斜度值較低的情況下,泊松分佈在各個方向上具有相對均勻的擴散。但是,當偏斜度值非常大的時候,我們的資料在不同方向上的擴散將會是不同的。在一個方向上,資料的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

統計學——降維

降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。在資料科學中,這是特徵變數的數量。請看下圖:

統計學——過取樣和欠取樣

過取樣和欠取樣是用於分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給資料建模並進行預測。那麼,過取樣和欠取樣可以應對這種情況。請看下圖:

統計學——貝葉斯統計

完全理解為什麼在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到“概率”這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率,明確地說,我們唯一計算的資料是先驗資料(prior data)。

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/