Deephub IMBA
機率和統計知識是資料科學和機器學習的核心;我們需要統計和機率知識來有效地收集、審查、分析數據。
現實世界中有幾個現象例項被認為是統計性質的(即天氣數據、銷售數據、財務數據等)。這意味著在某些情況下,我們已經能夠開發出方法來幫助我們透過可以描述數據特徵的數學函式來模擬自然。
“機率分佈是一個數學函式,它給出了實驗中不同可能結果的發生機率。”
瞭解數據的分佈有助於更好地模擬我們周圍的世界。它可以幫助我們確定各種結果的可能性,或估計事件的可變性。所有這些都使得了解不同的機率分佈在資料科學和機器學習中非常有價值。
在本文中,我們將介紹一些常見的分佈並透過Python 程式碼進行視覺化以直觀地顯示它們。
均勻分佈
最直接的分佈是均勻分佈。均勻分佈是一種機率分佈,其中所有結果的可能性均等。例如,如果我們擲一個公平的骰子,落在任何數字上的機率是 1/6。這是一個離散的均勻分佈。
但是並不是所有的均勻分佈都是離散的 — — 它們也可以是連續的。它們可以在指定範圍內取任何實際值。a 和 b 之間連續均勻分佈的機率密度函式 (PDF) 如下:
讓我們看看如何在 Python 中對它們進行編碼:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
# for continuous
a = 0
b = 50
size = 5000
X_continuous = np.linspace(a, b, size)
continuous_uniform = stats.uniform(loc=a, scale=b)
continuous_uniform_pdf = continuous_uniform.pdf(X_continuous)
# for discrete
X_discrete = np.arange(1, 7)
discrete_uniform = stats.randint(1, 7)
discrete_uniform_pmf = discrete_uniform.pmf(X_discrete)
# plot both tables
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))
# discrete plot
ax[0].bar(X_discrete, discrete_uniform_pmf)
ax[0].set_xlabel("X")
ax[0].set_ylabel("Probability")
ax[0].set_title("Discrete Uniform Distribution")
# continuous plot
ax[1].plot(X_continuous, continuous_uniform_pdf)
ax[1].set_xlabel("X")
ax[1].set_ylabel("Probability")
ax[1].set_title("Continuous Uniform Distribution")
plt.show()
高斯分佈
高斯分佈可能是最常聽到也熟悉的分佈。它有幾個名字:有人稱它為鐘形曲線,因為它的機率圖看起來像一個鐘形,有人稱它為高斯分佈,因為首先描述它的德國數學家卡爾·高斯命名,還有一些人稱它為正態分佈,因為早期的統計學家 注意到它一遍又一遍地再次發生。
正態分佈的機率密度函式如下:
σ 是標準偏差,μ 是分佈的平均值。要注意的是,在正態分佈中,均值、眾數和中位數都是相等的。
當我們繪製正態分佈的隨機變數時,曲線圍繞均值對稱 — — 一半的值在中心的左側,一半在中心的右側。並且,曲線下的總面積為 1。
mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
plt.subplots(figsize=(8, 5))
plt.plot(x, stats.norm.pdf(x, mu, sigma))
plt.title("Normal Distribution")
plt.show()
對於正態分佈來說。經驗規則告訴我們資料的百分比落在平均值的一定數量的標準偏差內。這些百分比是:
68% 的數據落在平均值的一個標準差內。
95% 的數據落在平均值的兩個標準差內。
99.7% 的數據落在平均值的三個標準差範圍內。
對數正態分佈
對數正態分佈是對數呈正態分佈的隨機變數的連續機率分佈。因此,如果隨機變數 X 是對數正態分佈的,則 Y = ln(X) 具有正態分佈。
這是對數正態分佈的 PDF:
對數正態分佈的隨機變數只取正實數值。因此,對數正態分佈會建立右偏曲線。
讓我們在 Python 中繪製它:
X = np.linspace(0, 6, 500)
std = 1
mean = 0
lognorm_distribution = stats.lognorm([std], loc=mean)
lognorm_distribution_pdf = lognorm_distribution.pdf(X)
fig, ax = plt.subplots(figsize=(8, 5))
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=1")
ax.set_xticks(np.arange(min(X), max(X)))
std = 0.5
mean = 0
lognorm_distribution = stats.lognorm([std], loc=mean)
lognorm_distribution_pdf = lognorm_distribution.pdf(X)
plt.plot(X, lognorm_distribution_pdf, label="μ=0, σ=0.5")
std = 1.5
mean = 1
lognorm_distribution = stats.lognorm([std], loc=mean)
lognorm_distribution_pdf = lognorm_distribution.pdf(X)
plt.plot(X, lognorm_distribution_pdf, label="μ=1, σ=1.5")
plt.title("Lognormal Distribution")
plt.legend()
plt.show()
泊松分佈
泊松分佈以法國數學家西蒙·丹尼斯·泊松的名字命名。這是一個離散的機率分佈,這意味著它計算具有有限結果的事件 — — 換句話說,它是一個計數分佈。因此,泊松分佈用於顯示事件在指定時期內可能發生的次數。
如果一個事件在時間上以固定的速率發生,那麼及時觀察到事件的數量(n)的機率可以用泊松分佈來描述。例如,顧客可能以每分鐘 3 次的平均速度到達咖啡館。我們可以使用泊松分佈來計算 9 個客戶在 2 分鐘內到達的機率。
下面是機率質品質函式公式:
λ 是一個時間單位的事件率 — — 在我們的例子中,它是 3。k 是出現的次數 — — 在我們的例子中,它是 9。這裡可以使用 Scipy 來完成機率的計算。
from scipy import stats
print(stats.poisson.pmf(k=9, mu=3))
"""
0.002700503931560479
"""
泊松分佈的曲線類似於正態分佈,λ 表示峰值。
X = stats.poisson.rvs(mu=3, size=500)
plt.subplots(figsize=(8, 5))
plt.hist(X, density=True, edgecolor="black")
plt.title("Poisson Distribution")
plt.show()
指數分佈
指數分佈是泊松點過程中事件之間時間的機率分佈。指數分佈的機率密度函式如下:
λ 是速率引數,x 是隨機變數。
X = np.linspace(0, 5, 5000)
exponetial_distribtuion = stats.expon.pdf(X, loc=0, scale=1)
plt.subplots(figsize=(8,5))
plt.plot(X, exponetial_distribtuion)
plt.title("Exponential Distribution")
plt.show()
二項分佈
可以將二項分佈視為實驗中成功或失敗的機率。有些人也可能將其描述為拋硬幣機率。
引數為 n 和 p 的二項式分佈是在 n 個獨立實驗序列中成功次數的離散機率分佈,每個實驗都問一個是 / 否問題,每個實驗都有自己的布林值結果:成功或失敗。
本質上,二項分佈測量兩個事件的機率。一個事件發生的機率為 p,另一事件發生的機率為 1-p。
這是二項分佈的公式:
視覺化程式碼如下:
X = np.random.binomial(n=1, p=0.5, size=1000)
plt.subplots(figsize=(8, 5))
plt.hist(X)
plt.title("Binomial Distribution")
plt.show()
學生 t 分佈
學生 t 分佈(或簡稱 t 分佈)是在樣本量較小且總體標準差未知的情況下估計正態分佈總體的均值時出現的連續機率分佈族的任何成員。它是由英國統計學家威廉·西利·戈塞特(William Sealy Gosset)以筆名“student”開發的。
PDF如下:
n 是稱為“自由度”的引數,有時可以看到它被稱為“d.o.f.” 對於較高的 n 值,t 分佈更接近正態分佈。
import seaborn as sns
from scipy import stats
X1 = stats.t.rvs(df=1, size=4)
X2 = stats.t.rvs(df=3, size=4)
X3 = stats.t.rvs(df=9, size=4)
plt.subplots(figsize=(8,5))
sns.kdeplot(X1, label = "1 d.o.f")
sns.kdeplot(X2, label = "3 d.o.f")
sns.kdeplot(X3, label = "6 d.o.f")
plt.title("Student's t distribution")
plt.legend()
plt.show()
卡方分佈
卡方分佈是伽馬分佈的一個特例;對於 k 個自由度,卡方分佈是一些獨立的標準正態隨機變數的 k 的平方和。
PDF如下:
這是一種流行的機率分佈,常用於假設檢驗和置信區間的構建。
讓我們在 Python 中繪製一些示例圖:
X = np.arange(0, 6, 0.25)
plt.subplots(figsize=(8, 5))
plt.plot(X, stats.chi2.pdf(X, df=1), label="1 d.o.f")
plt.plot(X, stats.chi2.pdf(X, df=2), label="2 d.o.f")
plt.plot(X, stats.chi2.pdf(X, df=3), label="3 d.o.f")
plt.title("Chi-squared Distribution")
plt.legend()
plt.show()
掌握統計學和機率對於資料科學至關重要。在本文展示了一些常見且常用的分佈,希望對你有所幫助。
文章來源:Deephub Imba
文章連結:https://mp.weixin.qq.com/s/DjkkITzcXFAyq8T9q69u3A
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~
文章推薦
◆跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求
回顧十週入門數據分析系列文:
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!