資料彙總是一個將原始資料簡化為其主要成分或特徵的過程,使其更容易理解、視覺化和分析。本文介紹總結資料的七種重要方法,有助於理解資料實質的內容。
1、集中趨勢:平均值,中位數,眾數
集中趨勢是一種統計測量,目的是確認最典型的個體,找到最能夠代表整個組的單個數值。它可以提供對資料集中“典型”資料點的準確描述。集中趨勢的三個主要度量是平均值、中位數和眾數。
🎈平均值:透過將資料集中的所有資料點相加,然後除以資料點的數量來計算平均值。
🎈中位數:中位數是資料集的中間點。要找到中位數,必須首先按量級(升序或降序)對資料進行排序。如果資料集包含奇數個觀測值,則中位數為中間值。如果有偶數個觀測值,中位數是兩個中間值的平均值。
🎈眾數:眾數是資料集中出現頻率最高的值。資料集可以有一個眾數(單峰),兩個眾數(雙峰),或多個眾數(多峰)。
理解集中趨勢有助於建立一個“典型”值,作為資料的有用總結。
2、離散度:範圍,方差,標準差
集中趨勢的度量可以為資料提供一個摘要,而離散度的度量則描述了資料點的分佈。它們提供了對資料集內可變性的洞察。衡量離散度的關鍵指標包括範圍、方差和標準差。
🎈範圍:範圍是最簡單的離散度量。它是資料集中的最大值減去最小值來計算的。
🎈方差:方差是衡量資料集中的資料點與均值相差多少的指標。它是透過取平均值的平方差的平均值來計算的。
🎈標準差:標準差是方差的平方根。它衡量每個資料點與平均值之間的平均距離。它用與資料相同的單位表示,所以特別有用。
理解離散度對於衡量資料的可靠性至關重要。高離散度表明資料的高度可變性。
3、偏度和峰度
偏度和峰度是衡量資料分佈形狀的兩個重要指標。
🎈偏度:偏度衡量資料分佈的不對稱性。正偏斜表示右尾長的分佈,而負偏斜表示左尾長的分佈。零偏度表示完全對稱的分佈。
🎈峰度:峰度衡量分佈的“尾部”。高峰度表示具有重尾和尖峰(leptokurtic)的分佈,而低峰度表示具有輕尾和平峰(platykurtic)的分佈。正態分佈的峰度為零(中峰態)。
瞭解資料分佈的偏度和峰度可以為了解資料可變性的本質提供有價值的見解。偏度可以指示資料中的潛在異常值或異常,而峰度可以表明資料是重尾還是輕尾,這會影響某些統計分析。
4、相關性和協方差
相關性和協方差是描述資料集中兩個變數之間關係的兩種度量。
🎈相關性:相關性衡量兩個變數之間線性關係的強度和方向。它的範圍從-1到1,其中1表示完全正相關,-1表示完全負相關,0表示沒有線性關係。
🎈協方差:協方差是衡量兩個變數一起變化的程度。與相關性不同,協方差不衡量關係的強度,其值不受約束,因此比相關性更難解釋。
這兩個度量對於理解資料中不同變數之間的關係至關重要,這有助於預測建模和其他統計分析。
5、百分位數和四分位數
百分位數和四分位數是相對地位的衡量標準,可以更深入地瞭解資料集的分佈。
🎈百分位數:百分位數表示資料集中有多少觀察值低於該值。例如,第 20 個百分位數是低於該值的 20% 的觀測值。
🎈四分位數:四分位數將排序資料集分成四個相等的部分。第一個四分位數 (Q1) 是第 25 個百分位數,第二個四分位數 (Q2) 是中位數或第 50 個百分位數,第三個四分位數 (Q3) 是第 75 個百分位數。
百分位數和四分位數對於瞭解資料的分佈、識別異常值以及比較不同的資料點或資料集特別有用。
6、箱線圖和直方圖
箱線圖和直方圖是用於彙總資料的圖形方法。
🎈箱線圖:箱線圖(或箱型圖)提供資料集中最小值、第一四分位數、中位數、第三四分位數和最大值的視覺化摘要。它還可以指示資料中的異常值。所以箱線圖非常適合比較不同組之間的分佈。
🎈直方圖:直方圖是資料集分佈的圖形表示。它是對連續變數機率分佈的估計。直方圖透過指示位於值範圍內的資料點數量(稱為箱)來提供數字資料的直觀解釋。
這些圖形方法允許快速、直觀地理解資料,使它們成為資料分析的寶貴工具。
7、交叉製表
交叉表是一種常用的分類彙總資料的方法。它建立了一個顯示變數頻率分佈的列聯表。透過交叉表可以觀察兩個或多個分類變數之間關係的統計顯著性。
交叉表在市場研究或任何其他使用調查或問卷的研究中特別有用。它們提供了兩個或多個變數之間相互關係的基本圖景,可以幫助找到它們之間的相互作用。
總結
對資料進行總結是資料分析過程中至關重要的一步。它提供了對資料集的全面理解,揭示了在原始的、未處理的資料中可能不明顯的模式、關係和見解。本文描述的七種方法都提供了對資料的不同視角,提供了一個全面的總結,可以為決策提供資訊。
文章來源:DeepHub IMBA
原文連結:https://mp.weixin.qq.com/s/AuV8yoNPfXf7eYlxkNvalg
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~
文章推薦
◆跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求
回顧十週入門數據分析系列文:
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!