這次徹底把指標體系講清楚了!

數據分析那些事
13 min readNov 6, 2024

--

最近有同學問數據君:除了分析方法,數據分析師還要掌握哪些技能?數據君認為,梳理指標體系就是很重要的一項技能。事實上,這已經成為求職過程中對數據分析師的基本要求之一。今天,數據君將與大家分享這篇來自“好好分析師”的文章,帶領大家深入學習指標體系建設的相關方法。

01 為什麼要設計指標?

因為我們知道的太少。不僅是Jon Snow,“我們真的知道的,比我們認為自己知道的,知道的少。”是一個對於大多數人而言都普遍存在的現象。

而設計指標的目的就在於:讓我們瞭解更多。具體而言,透過指標數值,可以在可接受的成本下,傳遞足夠多的資訊。

設想一下:

● 中年危機老賈去醫院體檢,諮詢身體狀況如何;醫生說:“還行。有點問題。問題不大。”而不是告訴他血壓如何、體脂如何、血糖如何。

● 法外狂徒小藝被查酒駕,交警質問他喝了多少;小藝說:“沒醉。喝了一點。喝的不多。”交警卻沒有一個血液酒精含量的指標,去判斷他是否醉駕,應該作何處罰。

● 霸道總裁阿餅例行月會詢問業績,負責銷售的副總說:“很棒。業績很好,賣了不少。”隻字不提銷售總額、人均產能、業績趨勢。

倘若沒有指標這個工具,我們能獲得的資訊,就會變得是非常有限的;或是獲取資訊的成本變得極高。為了更好的使用這個工具,我們首先要了解“指標”的定義是什麼。

02 什麼是指標?

讓我們簡單的回憶一下:我們日常最常接觸到的指標,像身高、體重、溫度、GDP。

它們的共性是什麼?

— — 共性在於它們的載體都是數值。例如,身高180,體重154,溫度26,GDP14.7萬億。

它們的差別是什麼?

— — 差別在於它們的含義各不相同。比方說,身高180(cm)和體重180(斤)的含義是截然不同的。

所以,指標是一個被定義的數值,用來對事實進行量化抽象。這個抽象過程可以是一次的,也可以是多次:

當一個事實比較簡單的時候,例如某個物品的輕重,我們用透過質量這一個指標就可以衡量清楚。

但當一個事實更復雜一些的時候,例如一個人的胖瘦,也許僅僅是用質量(體重)就不足以說明這個事實。這個時候我們可能會用BMI、體脂率等經過了兩次抽象的指標。

當這個事實變得更加複雜,例如一個國家的經濟狀況,我們會用GDP,這個一個進行了很多層複雜抽象、涉及到大量數據的指標。甚至是僅僅一個指標也完全不足以描述出這個事實的重要特徵;這時候就要設計一整套的指標體系,來量化這個複雜的事實。

事實、數據、指標之間的關係

綜上所述,一個應該至少包含4個要素:

名稱:指標名稱要清晰明確,避免歧義,降低溝通成本。

責任人:責任人要保證指標可維護、可營運。

含義:指標含義要描述的是“被量化的事實”;例如—— 這個指標是在什麼場景下?為了什麼目的?刻畫了什麼事實?

口徑:指標口徑要保證我們能及時地、準確地取到所需的“數值”;例如——這個指標是如何計算的?所需的數據從哪獲取?獲取的時效如何?

當然僅僅知道什麼是指標是遠遠不夠的,還要知道怎麼去生成一個指標。

03 如何設計一個指標?

指標設計的過程與分類

結合統計與數據治理視角,我們可以將指標的設計過程分為三個步驟:抽象、加工、限定。

指標的生成過程

數據經過初步抽象,形成原子指標,即絕對數指標。例如:保費、客戶數、使用者量。

原子指標經過三種加工方式,形成衍生指標。例如:升學率、平均客單價、滬深300。這3種加工方式分別為:進行對比、計算統計量、指數設計(結合對比和統計計算)。

當我們對原子指標和衍生指標,進行維度限定的時候,就形成了派生指標

指標類別

這裡對原子指標、相對指標以及統計量指標的使用做一個簡單的介紹:

原子指標記錄事實:根據指標的定義,指標是一個被定義的數值,用來對事實進行量化抽象。這個量化過程的起點是感測器、數位化等;然後是日誌、記錄、標籤等;進入指標彙總層面的第一步就是原子指標。我們透過原子指標來記錄事實,例如訪問的次數、出行的距離、消費的金額等等。所以當我們需要記錄一些基本事實的時候,我們設計一個原子指標來量化它們。

相對指標用於評價:我們透過原子指標,記錄下了一堆的事實。緊接著,我們要做的就是對這些事實進行評價。常說“沒有比較就沒有傷害。”為什麼沒有傷害呢?因為沒有比較,就很難做評價,進而我們也不知道自己是好是壞。所以當我們需要評價一些事實的時候,我們設計一個相對指標來量化它們。

● 當我們要評價一件事情的發展趨勢的時候,我們可以用動態相對數;例如:同比、環比。

● 當我們要評價一件事對整體的影響的時候,我們可以用比例相對數;例如:市場佔有率。

● 當我們要評價同一個事物在不同維度下的差異程度的時候,我們可以用比較相對數;例如:TGI、男女比例。

● 當我們要評價兩個不同事物之間的關聯的時候,我們可以用強度相對數;例如:投訴發起強度、退款發起強度。

● 當我們要評價計劃的完成情況的時候,我們可以用完成相對數;例如:銷售額完成進度。

統計數指標提煉資訊:有時候,我們會有非常多的記錄或指標。它們蘊含著非常多的資訊,但是價值的密度卻很有限。這個時候就可用透過一些統計的方式,提煉其中的資訊價值。例如我們有數以千萬記的使用者的月均消費金額,這時候可以透過統計分位置的方式對我們客戶整體的消費能力做一個刻畫。

指標的尺度特性

不同的指標,還會具有不同的尺度特性。根據可比程度的不同,我們可以將指標劃分為4個測量尺度:定比尺度、定距尺度、定序尺度和名義尺度。

指标尺度的特性是我们必须要了解清楚的,因为低尺度的指标不能使用高尺度的数据运算进行处理。这里举2个反例说明以下,如果没有弄清楚指标的尺度特性会导致什么问题:

定距尺度不能直接做乘除:

例如温度就是一个典型定距尺度,“20度有10度的2倍那么热,是一个非常令人困惑的表述。”定比尺度具有绝对起点“0点”;而定距尺度没有绝对起点,定距尺度的“0点”是人工计算出来的。换言之,定比尺度的指标,本身和零点的差是有意义的。但,定距尺度,之间的差才是有意义的。这就导致了,定比尺度可以直接和自然数做乘除法,但定距尺度不可以。

定序尺度不能直接做加减:

满意度评分就是一个典型的定序尺度。如果消费者给A酒店的评分是5分,B酒店的评分是3分,C酒店的评分是1分。很可能这并不意味着,A比B酒店好的程度与B酒店比A酒店好的程度相等。实际情况可能是 ,大多数的酒店都在4分左右,而5分是非常棒的;1、2、3分的酒店都乏善可陈,甚至体验很差

因为定距尺度之间的距离是精确定义了的,而定序尺度没有。所以定序尺度只能比较大小,而不能够进行直接的加减。虽然很多场景下,我们都会用平均满意度来衡量客户的满意情况。但我们会发现这样的使用方法,存在一些问题,例如说没有区分度等。这些问题中,有一部分就是由于“定序尺度”的特性带来的。

指標的時間特徵

在指標設計的過程中,時間是一個非常重要的因素。由於多個事實的發生時間之間的非同步性,以及事實發生時間與指標計算時間之間的非同步性,導致不同的時間統計口徑會對指標產生重大的影響。

多個事實發生時間之間的非同步性:

一個件事通常在一件事發生後一段時間,才會發生,或者才會被觀測到。例如訂單退款必須在下單支付之後才能發生;退房必須在入住酒店之後才能發生,且存在著一定的時間差。

事實發生與指標計算之間的非同步性:

一個事實發生與這個事實被計算(為指標)之間通常存在著時間差。例如,一個消費者1分鐘內在APP上(生產環境下)下了20筆訂單。但可能在1個小時後,才能在後臺數據庫中查詢到這20筆增量的訂單記錄。這種情況的發生可能是由於任務排程的設定導致的,也可能是由於技術能力的限制導致的。

再舉個例子,某閲讀網站幾個月前在創作中心中統計的閱讀量還是日頻重新整理的。現在也僅僅做到了小時重新整理。

這樣的重新整理頻次可能在“創作中心”的業務場景下是可接受的,但在很多其他的業務場景下(例如短影片推薦),是不可接受的。為了解決以上業務場景的問題,我們就需要採取流計算的技術,來提高數據生產的時效性。

事實間的“非同步性”和事實與計算間的“非同步性”,會影響指標反饋資訊的“及時性”與對事實抽象的“準確性”。

總的來說,我們希望指標在保證一定準確性的前提下,越及時越好。為了達成這個目標,我們需要慎重的考慮兩個時間特徵:“T+n”和“時間切片 v.s. 關聯繫結”。

“T+n”與“時間切片統計”、“關聯繫結統計”的示意說明

◆ “T+n”

T+n中的n應該設定為什麼更為合適,是1天、3天還是5天;1小時、2小時還是5分鐘。舉個例子,保險公司要衡量保單的品質,即有沒有賣給消費者他們所需要的產品。那麼用什麼指標來衡量更為合適呢?

大家可能會想到“退保率”。但是退保率該如何計算呢?嚴格來說,一筆保單在其合同約定的期限內的任意一天都是可以退保的。所以,從完全準確的角度出發,如果某個保險產品的合同期為20年,那麼應該統計20年零1天前所有保單的退款率,即T+20y。但是,這顯然是不現實的。因為“及時性”太差了,完全不可營運。

因此,我們要設計一個更恰當的時間特徵n。假設,現在我們知道保險的猶豫期大約是10~15天,也許在平衡“及時性”與“準確性”之後,退款率的設計就會是“T+15d”計算。

◆ “時間切片 v.s. 關聯繫結”

我們在計算相對指標的時候,應該以什麼樣的方式進行對比?舉個例子,營運常用的流程分析,AAARR(獲取、啟用、留存、收益、傳播)。通常使用這套方法去做營運分析,就要計算啟用率、留存率、消費轉化率等等一系列的指標。

如果我們要計算這類指標就存在一個選擇,是使用時間切片的方式去計算啟用率嗎?即:今日的啟用率 = 今天獲取的使用者量 / 今天啟用的使用者量。

但是思考一下:今天啟用的使用者中,有沒有昨天獲取的使用者呢?有沒有前天獲取的使用者呢?有沒有去年獲取的使用者呢?顯然是有的。而我們在使用切片數據時,就可能導致一個現象,今天的啟用率高,可能僅僅是因為今天獲取的使用者數少,而今天啟用的使用者都是之前積累下來的。

也就是說,有可能轉化率高,是件壞事。那麼,是不是為了準確性,就用關聯繫結的方式去設計指標呢?即,計算啟用率的時候,應該圈定某天獲取的那些使用者,看這些使用者中有多少激活了。例如,今天計算“T+7d ”前獲取的使用者中的啟用率是多少。如果採取這樣的方式,我們就回到了問題1:“n”應該如何選擇。

綜上所述,當我們遇到一個量化的問題,就從上述的指標類別中選取一種設計方法,完成指標的設計工作。接下來我們要做的,就是去衡量這個設計的好壞。

04 什麼樣的指標算一個好的指標?

有效性:這個指標能不反映我們量化的事實

例如,我們想要去衡量某個APP的使用者量有多少,應該用DAU,還是MAU?不同類別的APP可能有不同的選擇,對於外賣而言,每天的DAU可能都非常關鍵。而對於一個旅行類的APP而言,因為類目本身消費頻次的不同,可能MAU才是一個更能真實反映使用者數量的指標。

可信性:反映事實的指標是不是穩定的

例如,人力部門設計了一套題庫去衡量應聘者的數據能力,希望透過測試題的分數,去做出是否招聘某位同學的決定。那麼對於同一個面試的同學而言,第一次參加數據能力測試,和第二次參加數據能力測試的分數應該是相近的。

敏感性:事實的變化,能否被指標敏感的捕捉到,並反映出來

例如,對於酒店住宿預訂而言,到酒店前臺卻沒有空房可以入住,是一種非常糟糕的使用者體驗。但也是一個非常低頻發生的情況。那麼是否應該用“到店無房發生率”來追蹤這個問題就是一個值得思考的問題。同理,對於輿情監控,是應該用絕對數指標來監控,還是比例指標來監控更好呢?

可營運:這個指標能否被用於日常的營運,及時的幫助我們謀求改善

例如,越來越多的公司因為對客戶忠誠度的重視,開始用NPS(客戶淨推薦值)來衡量客戶的感受。但是如果僅僅有這個主觀指標,當NPS降低了10%的時候,公司應該如何去提升使用者的忠誠度呢?

04 總結

使用指標的原因:指標可以幫助我們低成本的獲取更多資訊。

指標的定義:指標是一個被定義的數值,用來對事實進行量化抽象。

指標設計的4個要素:名稱、責任人、含義、口徑。

指標設計的3個過程:透過抽象、加工、限定,我們可以將數據轉化為原子指標、衍生指標和派生指標。衍生指標是原子指標經過運算的結果,派生指標是原子指標和衍生指標經過維度限定的結果。

衡量指標設計好壞的4個標準:有效性、可信性、敏感性、是否可營運。

以上就是本期的內容分享~~,碼字不易,如果覺得對你有一點點幫助,歡迎「追蹤」,「按贊」,「分享」喔,我會持續為大家創作優質的內容~~

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

☞☞☞點選下方圖片免費體驗FineBI工具demo

文章推薦:

數據分析之落地 sop 流程

那些年,背過的SQL題

MySQL常用指令碼

商業分析應該怎麼做?一篇文章把思維和工具說清楚了!

乾貨 | 如何搭建用戶分析體系

回顧十週入門數據分析系列文:

關注數據君的臉書,ins(全網同名)

我是「數據分析那些事」。常年在臉書ins分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,並在臉書置頂帖子下回復SQL50,會有MySQL經典50題及答案贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

Responses (1)