導讀:資料分析要熟練掌握資料科學與數理統計的基本概念。
作者:張秋劍 張浩 周大川 常國珍
來源:大資料DT(ID:hzdashuju)
01 資料科學的基本概念
隨著計算機技術的發展和有用資料的快速增多,資料科學應運而生。資料科學的總體目標是在已有資料集的基礎上,透過特定的演算法提取資訊,並將其轉化為可理解的知識以輔助做決策。
例如,北京****信用管理有限公司是一家典型的資料公司,有兩個主要業務:第一個是為會員機構提供資料加工服務,第二個是提供反欺詐與信用風險管理的產品和諮詢服務。
第一個業務的主要工作內容是為會員機構清洗資料,並提供資料儲存與管理服務。按照經濟學的觀點,這類業務的附加價值極低,只能獲得社會一般勞動報酬。
第二個業務屬於增值服務,資料科學工作者將資料與金融借貸的業務知識相結合,為會員機構提供風控方面的諮詢服務。這類業務的邊際報酬在客戶量達到一定閾值之後是遞增的,即一元的投入會獲得高於一元的產出,可以為企業高築商業的安全邊際。
從這家公司的業務中可以看出,資料是基礎,資料科學是研發,不做研發的企業只能成為代工廠。
資料科學的工作正規化見圖1–1,以後我們的工作都是在重複這些步驟。
我們再來看一個例子。有一個淘寶商家希望透過促銷的方式啟用沉默客戶。這裡的“決策和行動”就是向一些客戶發放打折券。打折券不應該是隨意發放的,比如黏性很高的客戶沒有打折券也會持續購買。
為了明確應該向哪些客戶發放打折券,商家需要了解關於客戶的三個知識:客戶的流失可能性、客戶價值、客戶對打折券的興趣。這些關於客戶的知識往往被稱為客戶標籤。根據獲取標籤的難度,客戶標籤可以分為基礎、統計、模型三種。
﹣基礎標籤可以從原始資料直接獲取,比如性別、年齡段、職業,可以供決策者使用,等價於資訊和資料。
﹣統計標籤是透過原始資料彙總得到的,比如獲得客戶的價值標籤需要將客戶過去一段時間內在企業的所有消費進行彙總,並扣除消耗的成本。統計標籤透過對原始資料進行簡單的描述性統計分析獲得。
﹣模型標籤比較複雜,是在基礎標籤、統計標籤和已有的模型標籤的基礎上,透過構建資料探勘模型得到的,比如客戶的流失機率、違約機率的標籤。
具體到本例,客戶的流失可能性、客戶價值、客戶對打折券的興趣這三個標籤都屬於統計標籤。表1–1所示是該商家的交易流水錶,記錄了每位客戶每筆交易的時間、金額和交易型別。從這些交易流水資料中獲取資訊的最簡單而通用的方法被稱為RFM模型。
圖1–2是根據表1–1的資料所做的RFM模型。RFM模型將每個資訊進行二次分類,得到客戶分群。
﹣R(最後一次消費時間)標籤可以代表客戶的流失可能性,離最後一次消費時間越久的客戶的流失可能性越高。
﹣M(一段時期內消費的總金額或平均金額)標籤可以代表客戶的價值,消費額高的客戶的價值高,因此可以初步確定重要保持和重要挽留客戶都屬於應該營銷的客戶。
﹣最後一個標籤F(一段時期內消費的頻次)代表客戶對打折券的興趣。
直接使用RFM模型是不能滿足要求的,我們可以按照交易型別,計算每個客戶所有交易型別中購買特價產品的F(一段時期內消費的頻次)或M的佔比。
這裡有人會開始糾結,兩個標籤該選哪個呢?其實,“對打折券的興趣”是一個概念,我們可以用多種方法得到不同的標籤來表示這個概念。如果你追求完美,可以使用後續章節中講的主成分方法進行指標合成。
經過以上資料分析,我們終於可以進行有針對性的折扣券營銷了。細心的讀者可以發現,資料分析是按照圖1–1所示的工作正規化從右至左規劃和分析、從左至右實際操作的。本案例比較簡單,資料量不大,使用Excel進行資料分析即可。
不過,當一個企業的年銷售額達到幾十億元,活躍客戶量達到幾十萬時,其就必須聘請專業的資料科學工作者,使用複雜的演算法和專業的分析工具了。
與資料科學相關的知識涉及多個學科和領域,包括統計學、資料探勘、模式識別、人工智慧(機器學習)、資料庫等,如圖1–3所示。資料科學的演算法來源比較複雜,所以同一概念在不同領域的稱呼不一樣。為了便於讀者將來與不同領域的專家溝通,我們力爭列出出現的術語在不同領域對應的稱呼。
資料庫
資料是資料科學的基礎,任何資料分析都離不開資料。如今資訊化建設日趨完善,資料庫作為儲存資料的工具,被資料分析人員廣泛使用。
Python和R之類的工具都是記憶體計算,難以處理太大的資料。因此在對資料庫中的資料進行分析前,資料分析師需要藉助Oracle之類的資料庫工具得到待分析的資料,並在資料庫內進行適當的清洗和轉換。即使在大資料平臺上做資料分析,大量的資料也是在Hive或Impala中處理後才被匯入Spark進行建模。
統計學
統計學一直被認為是針對小資料的資料分析方法,不過其仍舊在資料科學領域擔任重要的角色,比如對資料進行抽樣、描述性分析、結果檢驗等。目前商業智慧中的資料視覺化技術絕大多數使用的是統計學中的描述性分析。而變數降維、客戶分群主要還是採用多元統計學中的主成分分析和聚類演算法。
人工智慧/機器學習/模式識別
一些資料科學方法起源於早期科技人員對計算機人工智慧的研究,比如神經網路演算法是模仿人類神經系統運作的,不僅可以透過訓練資料進行學習,而且能根據學習的結果對未知的資料進行預測。
很多人視數學為進入資料科學的攔路虎,這是完全沒有必要的。在一開始接觸資料科學時,我們完全可以從業務需求出發,以最簡單的方法完成工作任務。
02 數理統計技術
數理統計博大精深,但入門並不難。只要掌握本節中介紹的描述性統計分析和統計推斷的知識,你便可應對絕大部分工作。
1. 描述性統計分析
描述性統計分析是每個人幾乎都會使用的方法,比如新聞聯播中提及的人民收入是均值,而不是每個人的收入。企業財務年報中經常提及的是年收入、利潤總額,而不是每一筆交易的資料。這些平均數、總和就是統計量。
描述性統計分析就是從總體資料中提煉變數的主要資訊,即統計量。日常的業務分析報告就是透過標準的描述性統計分析方法完成的。做這類分析時只要明確分析的主題和可能的影響因素,即可確定可量化主題和影響因素的指標,然後根據這些指標的度量型別選擇適用的統計表和統計圖進行資訊呈現。圖1–4展現了統計表的型別和對應的柱形圖。
以圖1–5為例,這是某知名商業智慧軟體的截圖,其實就是圖1–4中方法的運用。比如圖中“普通小學基本情況”報表就是“彙總表”的直接運用;“普通小學專任教師數”是柱形圖的變體,使用博士帽的數量替代柱高;“各省份小學學校數量佔比”中使用氣泡的大小代表各省小學學校數量的佔比情況。
剩下的難點就是理解業務和尋找資料了,這要靠多讀分析報告、積累業務經驗來解決。
2. 統計推斷與統計建模
統計推斷及統計建模的含義是建立解釋變數與被解釋變數之間可解釋的、穩定的,最好是具有因果關係的表示式。在模型運用時,將解釋變數帶入該表示式可以預測每個個體被解釋變數的均值。目前,針對統計推斷,業界存在兩個誤解。
﹣統計推斷無用論
認為大資料時代只做描述性統計分析即可,不需要做統計推斷。由於總體有時間和空間兩個維度,即使透過大容量與高速並行處理得到空間上的總體,也永遠無法獲取時間上的總體,因為需要預測的總是新的客戶或新的需求。
更為重要的是,在資料科學體系中,統計推斷的演算法往往是複雜的資料探勘與人工智慧演算法的基礎。比如特徵工程中大量使用統計推斷演算法進行特徵創造與特徵提取。
﹣學習統計推斷的產出/投入比低
深度學習大行其道的關鍵點是產出/投入比高。實踐表明,具有高等數學基礎的學生可以透過兩個月的強化訓練掌握深度學習演算法並投入生產,而培養同樣基礎的人開發可落地的商業統計模型的時間至少是半年,原因在於統計推斷的演算法是根據分析變數的度量型別定製開發的,需要分析人員對各類指標的分佈型別有所認識,合理選擇演算法。
而深度學習演算法是通用的,可以在一個框架下完成所有任務。聽上去當然後者的投入產出比更高。但是,效率與風險往往是共存的。目前,頂尖AI公司的模型開發人員發現一個現象:解決同樣的問題,統計模型開發週期長而更新頻次低;深度學習演算法開發週期短而最佳化頻次高。
過去,深度學習所鼓吹的實時最佳化造成企業過度的人員投入,使得企業綜合受益不一定高。而我們的目的之一就在於降低統計推斷學習的成本。讀者將來只要按照表1–2所示方法分析,即可大大縮減學習時間。
關於作者:
張秋劍,就職於騰訊雲金融拓展中心,從事微信財富營銷管理、資料中臺、AI應用等解決方案拓展工作,研究方向包括數字化轉型、創新實踐等。
張浩,曾任騰訊雲金融首席架構師和星環科技金融行業技術總監,主要從事大資料、人工智慧、雲計算、區塊鏈、聯邦學習等相關技術研發與產品設計,具有豐富的企業架構設計、企業數字化戰略轉型運營與業務諮詢經驗。
周大川,就職於某中央金融企業金融科技研發中心,主要從事企業級資料平臺開發、核心業務平臺建設、AI賦能金融科技創新等工作,具有豐富的新一代金融業務系統建設經驗。
常國珍,曾任畢馬威諮詢大資料總監,具有近20年資料探勘、精益資料治理、數字化運營諮詢經驗,是金融信用風險、反欺詐和反洗錢演算法領域的專家。
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~