0⃣️0⃣️ 序言
「數據分析」和「數據挖掘」在很多同學眼中是兩個單獨的方向,但其實作爲分析同學,在很多場景中,是可以利用挖掘技術解決問題的。同時,掌握一些算法內容,也是面試以及日常工作中的加分項。
本文和大家分享7個在工作中用算法的場景,理論不會展開,聚焦思路,希望對你有所幫助。
0⃣️1⃣️ :反作弊
數據採集入庫之後,常常會在ODS層做一步「離線反作弊」,目的是把“假用戶”的刷量數據剔除出去,有助於下游數據的準確性。反作弊屬數倉的範疇,一般會由DE同學負責,DS同學接觸的相對較少。
反作弊的方式有很多,對於數據量不大的公司,有的甚至會直接採用統計規則進行識別。當然,在制定規則前,需要對作弊用戶進行分析。例如:pv>500且ctr<0.3的用戶在某些場景可能爲作弊用戶。
而對於數據量較大的公司,用戶的作弊手段比較多樣化,引入算法挖掘是非常有必要的。其中「圖模型、樹模型等」都有出現過,而在實戰中,往往採用多種模型的組合,形成一個龐大的反作弊系統,簡單舉兩個例子,讓大家更有體感。
圖模型方式舉例:基於Swing二部圖算法,計算用戶之間相似度,結合圖聚類將用戶分簇,假設某個簇中疑似作弊用戶大於一定閾值,則判定該簇中的全部用戶均有作弊嫌疑。
樹模型方式舉例:根據用戶的各種行爲特徵,採用有監督學習,判斷是否爲作弊用戶。當然,有監督學習的缺點是,沒有那麼多作弊數據進行訓練,同時當有新的作弊手段出現時,發現的也比較滯後。
0⃣️2⃣️ :異動分析
數據分析同學避不開的話題「指標異動分析」,這個在之前的文章中,小火龍也寫過“異動分析三步曲”,從「異動分析思路」→「快速定位異常維度」→「輸出量化結論」。
0⃣️3⃣️ :預測分析
預測的作用主要在於目標的制定以及指標的監控。
預測的方式有很多:同環比、Arima、Holt-Winters、Prophet、LSTM等。
預測的場景同樣有很多:日常預測、節假日預測、特殊時點預測等。
其中,Prophet是原理相對簡單、精準度較高,且適用較多場景的模型。在之前的文章中也有寫過「預測的理論篇」及「預測的代碼實現篇」。
0⃣️4⃣️ :用戶增長 — Aha Moment挖掘
在新用戶分析中,經常會度量功能對用戶價值的影響,如果功能對用戶有顯著正向效果,則會考慮通過引導手段,幫助用戶使用,也就是用戶增長中常說的Aha Moment。
挖掘Aha的方式有很多,其中:功能與留存的Pearson相關性、隨機森林特徵貢獻度,均是較爲常用的方法,樹模型可以輔助挖掘,從而提升分析效率。
0⃣️5⃣️ :用戶增長 — 用戶流失預警
在用戶成熟期後,往往會出現衰退、流失的情況,如果能在用戶即將流失之前加以干預,挽留住用戶,相比獲取同等數量的新用戶要划算的多。
用戶流失預警模型,利用用戶的各種特徵,創建分類模型,預測用戶未來流失的可能性,從而通過手段提前干預,儘可能留住這些用戶。
0⃣️6⃣️ :因果分析
因果分析的目的主要是度量某個「干預」對「目標」的影響程度,我們經常用的AB實驗就是爲了解決因果問題。而在某些場景,當無法做AB實驗,或者沒來得及開發AB實驗的時候,便可以通過一定算法手段進行挖掘。
DID(雙重拆分法)、granger因果檢驗、因果樹等,都是比較常用的方式。在之前的文章中,分享過因果算法在快手產品中的應用,感興趣可以戳這裏「因果推斷」。
0⃣️7⃣️ :用戶分群
在用戶畫像中,有些標籤是人工加上去的,可以輔助業務進行推廣,實現千人千面,例如:時尚達人、職場精英、家庭宅男等。這些標籤是通過用戶多種特徵進行分羣,並加以提煉。
最後說一句,在數據分析中,應用算法的地方還有很多,以上7個場景只是冰山一角。切記一點:學習前沿技術是非常有必要的,但算法的目的是服務於業務,在同等準召的情況下,優先選擇簡單的算法。
以上就是本期的內容分享~~
文章來源:小火龍數據
原文鏈接:https://mp.weixin.qq.com/s/yZb2URwESxNOHJ3p_WwEyw
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
文章推薦
◆跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!