本篇文章,我們來講講資料分析常用語
1、絕對數和相對數
絕對數:是反應客觀現象總體在一定時間、一定地點下的總規模、總水平的綜合性指標,也是資料分析中常用的指標。比如年GDP,總人口等等。
相對數:是指兩個有聯絡的指標計算而得出的數值,它是反應客觀現象之間的數量聯絡緊密程度的綜合指標。相對數一般以倍數、百分數等表示。相對數的計算公式:
相對數=比較值(比數)/基礎值(基數)
2、百分比和百分點
百分比:是相對數中的一種,它表示一個數是另一個數的百分之幾,也稱為百分率或百分數。百分比的分母是100,也就是用1%作為度量單位,因此便於比較。
百分點:是指不同時期以百分數的形式表示的相對指標的變動幅度,1%等於1個百分點。
3、頻數和頻率
頻數:一個數據在整體中出現的次數。
頻率:某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。
4、比例與比率
比例:是指在總體中各資料佔總體的比重,通常反映總體的構成和比例,即部分與整體之間的關係。
比率:是樣本(或總體)中各不同類別資料之間的比值,由於比率不是部分與整體之間的對比關係,因而比值可能大於1。
5、倍數和番數
倍數:用一個數據除以另一個數據獲得,倍數一般用來表示上升、增長幅度,一般不表示減少幅度。
番數:指原來數量的2的n次方。
6、同比和環比
同比:指的是與歷史同時期的資料相比較而獲得的比值,反應事物發展的相對性。
環比:指與上一個統計時期的值進行對比獲得的值,主要反映事物的逐期發展的情況。
7、變數
變數來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變數可以透過變數名訪問。
8、連續變數
在統計學中,變數按變數值是否連續可分為連續變數與離散變數兩種。在一定區間內可以任意取值的變數叫連續變數,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變數。
9、離散變數
離散變數的各變數值之間都是以整數斷開的,如人數、工廠數、機器臺數等,都只能按整數計算。離散變數的數值只能用計數的方法取得。
10、定性變數
又名分類變數:觀測的個體只能歸屬於幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測資料稱為定性變數。可以理解成可以分類別的變數,如學歷、性別、婚否等。
11、均值
即平均值,平均數是表示一組資料集中趨勢的量數,是指在一組資料中所有資料之和再除以這組資料的個數。
12、中位數
對於有限的數集,可以透過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。
13、缺失值
它指的是現有資料集中某個或某些屬性的值是不完全的。
14、異常值
指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。
15、方差
是衡量隨機變數或一組資料時離散程度的度量。機率論中方差用來度量隨機變數和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源資料和期望值相差的度量值。
16、標準差
又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組資料,標準差未必相同。
17、皮爾森相關係數
皮爾森相關係數是用來反映兩個變數線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變數的觀測值和均值。r描述的是兩個變數間線性相關強弱的程度。r的絕對值越大表明相關性越強。
18、PV(Page View)頁面瀏覽量
指某段時間內訪問網站或某一頁面的使用者的總數量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網站日常流量資料的重要指標。PV可重複累計,以使用者訪問網站作為統計依據,使用者每重新整理一次即重新計算一次。
19、UV(Unique Visitor)獨立訪客
指來到網站或頁面的使用者總數,這個使用者是獨立的,同一使用者不同時段訪問網站只算作一個獨立訪客,不會重複累計,通常以PC端的Cookie數量作為統計依據。
20、Visit 訪問
指使用者透過外部連結來到網站,從使用者來到網站到使用者在瀏覽器中關閉頁面,這一過程算作一次訪問。
21、Bounce Rate 跳出率
指使用者透過連結來到網站,在當前頁面沒有任何互動就離開網站的行為,這就算作此頁面增加了一個“跳出”,跳出率一般針對網站的某個頁面而言。
跳出率=在這個頁面跳出的使用者數/PV
22、退出率
一般針對某個頁面而言。指使用者訪問某網站的某個頁面之後,從瀏覽器中將與此網站相關的所有頁面全部關閉,就算此頁面增加了一個“退出“。
退出率=在這個頁面退出的使用者數/PV
23、Click 點選
一般針對付費廣告而言,指使用者點選某個連結、頁面、banner的次數,可重複累計。比如我在PC端看到一則新聞連結點進去看了一會就關了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點選。
24、avr.time 平均停留時長
指某個頁面被使用者訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內容的質量。
avr.time=訪客數量/使用者總停留時長
25、CTR 點選率
指某個廣告、Banner、URL被點選的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。
CTR=點選數(click)/被使用者看到的次數
26、Conversion rate 轉化率
指使用者完成設定的轉化環節的次數和總會話人數的百分比,通常用來評價一個轉化環節的好壞,如果轉化率較低則需最佳化該轉化環節。轉化率=轉化會話數/總會話數
27、漏斗
通常指產生目標轉化前的明確流程,比如在淘寶購物,從點選商品連結到檢視詳情頁,再到檢視顧客評價、領取商家優惠券,再到填寫地址、付款,每個環節都有可能流失使用者,這就要求商家必須做好每一個轉化環節,漏斗是評價轉化環節優劣的指標。
28、投資回報率(ROI:Return On Investment )
反映投入和產出的關係,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。
其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用於評估企業對於某項活動的價值,ROI高表示該專案價值高。
29、重複購買率
指消費者在網站中的重複購買次數
30、流失分析(Churn Analysis/Attrition Analysis)
描述哪些顧客可能停止使用公司的產品/業務,以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用於為可能要流失的顧客準備新的優惠。
31、顧客細分&畫像(Customer Segmentation & Profiling)
根據現有的顧客資料,將特徵、行為相似的顧客歸類分組。描述和比較各組。
32、顧客的生命週期價值 (Lifetime Value, LTV)
顧客在他/她的一生中為一個公司產生的預期折算利潤。
33、購物籃分析(Market Basket Analysis)
識別在交易中經常同時出現的商品組合或服務組合,例如經常被一起購買的產品。此類分析的結果被用於推薦附加商品,為陳列商品的決策提供依據等。
34、實時決策(Real Time Decisioning, RTD)
幫助企業做出實時(近乎無延遲)的最優銷售/營銷決策。比如,實時決策系統(打分系統)可以透過多種商業規則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。
35、留存/顧客留存(Retention / Customer Retention)
指建立後能夠長期維持的客戶關係的百分比。
36、相關性分析(Correlation analysis)
是一種資料分析方法,用於分析變數之間是否存在正相關,或者負相關。
37、生存分析(Survival Analysis)
估測一名顧客繼續使用某業務的時間,或在後續時段流失的可能性。此類資訊能讓企業判斷所要預測時段的顧客留存,並引入合適的忠誠度政策。
38、演算法(Algorithms)
可以完成某種資料分析的數學公式。
39、商業智慧(Business Intelligence)
分析資料、展示資訊以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。
40、分類分析(Classification analysis)
從資料中獲得重要的相關性資訊的系統化過程;這類資料也被稱為元資料(meta data),是描述資料的資料。
41、聚類分析(Clustering analysis)
它是將相似的物件聚合在一起,每類相似的物件組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在於分析資料間的差異和相似性。
42、對比分析(Comparative analysis)
在非常大的資料集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。
43、資料分析(Data Analysis)
是指根據分析目的,用適當的分析方法及工具,對資料進行處理與分析,提取有價值的資訊,形成有效結論的過程。
44、資料處理(Data Processing)
資料處理是指根據資料分析的目的,將收集到的資料進行加工、整理,形成適合資料分析的樣式,它是資料分析前必不可少的階段。
45、資料探勘(Data mining)
資料探勘是透過使用複雜的模式識別技術,從而找到有意義的模式,並得出大量資料的見解。
46、資料清洗(Data cleansing)
對資料進行重新審查和校驗的過程,目的在於刪除重複資訊、糾正存在的錯誤,並提供資料一致性。
47、資料質量(Data Quality)
有關確保資料可靠性和實用價值的過程和技術。高質量的資料應該忠實體現其背後的事務程序,並能滿足在運營、決策、規劃中的預期用途。
48、資料建模(Data modelling)
使用資料建模技術來分析資料物件,以此洞悉資料的內在涵義。
49、資料集(Data set)
大量資料的集合。
50、判別分析(Discriminant analysis)
將資料分類,按不同的分類方式,可將資料分配到不同的群組,類別或者目錄。是一種統計分析法,可以對資料中某些群組或叢集的已知資訊進行分析,並從中獲取分類規則。
51、探索性分析(Exploratory analysis)
在沒有標準的流程或方法的情況下從資料中發掘模式。是一種發掘資料和資料集主要特性的一種方法。
52、機器學習(Machine learning)
人工智慧的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,透過長期的累積實現自我改進。
53、網路分析(Network analysis)
分析網路或圖論中節點間的關係,即分析網路中節點間的連線和強度關係。
54、異常值檢測(Outlier detection)
異常值是指嚴重偏離一個數據集或一個數據組合總平均值的物件,該物件與資料集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。
55、模式識別(Pattern Recognition)
透過演算法來識別資料中的模式,並對同一資料來源中的新資料作出預測
56、預測分析(Predictive analysis)
大資料分析方法中最有價值的一種分析方法,這種方法有助於預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。透過使用各種不同的資料集,例如歷史資料,事務資料,社交資料,或者客戶的個人資訊資料,來識別風險和機遇。
57、迴歸分析(Regression analysis)
確定兩個變數間的依賴關係。這種方法假設兩個變數之間存在單向的因果關係(譯者注:自變數,因變數,二者不可互換)。
58、路徑分析(Routing analysis)
針對某種運輸方法透過使用多種不同的變數分析從而找到一條最優路徑,以達到降低燃料費用,提高效率的目的。
59、情感分析(Sentiment Analysis)
透過演算法分析出人們是如何看待某些話題。
60、SQL
在關係型資料庫中,用於檢索資料的一種程式語言。
61、時序分析(Time series analysis)
分析在重複測量時間裡獲得的定義良好的資料。分析的資料必須是良好定義的,並且要取自相同時間間隔的連續時間點。
62、文字挖掘(Text Mining)
對包含自然語言的資料的分析。對源資料中詞語和短語進行統計計算,以便用數學術語表達文字結構,之後用傳統資料探勘技術分析文字結構。
63、視覺化(Visualization)
只有正確的視覺化,原始資料才可被投入使用。這裡的“視覺化”並非普通的圖型或餅圖,視覺化指是的複雜的圖表,圖表中包含大量的資料資訊,但可以被很容易地理解和閱讀。
64、儀表板(Dashboard)
使用演算法分析資料,並將結果用圖表方式顯示於儀表板中。
立即試用FineBI免費版:
https://intl.finebi.com/zh-tw/trial?utm_source=Medium_Banner
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~