使用者畫像-標籤體系(dwt層)

—什麼是對象?

—什麼是標籤?

標籤是人為設定的、根據業務場景需求,對目標物件運用一定的演算法得到的高度精煉的特徵標識。

標籤是對物件某個維度特徵的描述與刻畫,是某一種使用者特徵的符號表示,每一種標籤都規定了我們觀察認識描述物件的一個角度,用於物件的標註、刻畫、分類和特徵提取。

現實世界中標籤還有三種表現形態:實物標籤、網路標籤和電子標籤。

●實物標籤(Label)是用於標明物品的品名、重量、體積、用途等資訊的簡要標牌,例如:商品標籤、價格標籤、車檢標籤、服裝吊牌、車票、登機牌都是實物標籤;

●網路標籤(Tag)是一種網際網路內容組織方式,是相關性很強的關鍵字,它能幫助人們透過關鍵詞快速建立對內容總體印象;

●電子標籤又稱RFID射頻標籤(Label),是一種識別效率和準確度都比較高的識別工具,透過射頻訊號自動識別目標物件並獲取相關資料,識別工作無須人工干預,可工作於各種惡劣環境。

使用者畫像裡的標籤,實際上屬於網路標籤(Tag)。

—什麼是標籤體系?

所謂標籤體系,就是對企業需要的多種標籤進行歸類、同時對標籤屬性加以定義,從而更方便的對標籤進行管理維護。標籤體系包含兩部分(標籤分類體系即標籤類目+標籤內容資訊),最好能透過標籤系統來維護。也可按描述物件分類。

—使用者標籤體系

標籤類目,分類方式很多,建議採用按業務場景的分類方式。

以下是電商場景的標籤類目(最底層分類我只是象徵性寫了幾個能說明問題就好)。個人覺得阿里達摩盤的分類更好些,因為趙宏田老師的分類違背了不丟不重的基本分類原則:

標籤內容資訊,也叫標籤屬性,是從多個不同角度對標籤進行描述。

—商品標籤體系

按照應用場景區分,商品標籤分為基礎屬性、互動行為、適配場景、供應鏈屬性、商品價值等。

—什麼是使用者畫像?

使用者畫像,即使用者資訊標籤化,透過收集使用者的社會屬性、消費習慣、偏好特徵等各個維度的資料,進而對使用者或者產品特徵屬性進行刻畫,並對這些特徵進行分析、統計,挖掘潛在價值資訊,從而抽象出使用者的資訊全貌。

使用者畫像可看作企業應用大資料的根基,是定向廣告投放與個性化推薦的前置條件,為資料驅動運營奠定了基礎。由此看來,如何從海量資料中挖掘出有價值的資訊越發重要。

上邊這段話是趙宏田老師書裡寫的。我覺得,使用者畫像就是在使用者標籤的基礎上進行組合提煉,來刻畫描述使用者群體,以便更清晰的瞭解使用者,從而投其所好。畢竟使用者才是金主爸爸。

—標籤體系的應用場景

DMP、CDP

●CRM應該聽的比較多,就是客戶關係管理系統(Customer Relationship Management)。

●DMP就比較少的人聽說了,是資料管理系統(Data Management Platform),對應的前臺應用叫DSP,廣告精準投放平臺(Demand-Side Platform )。

●CDP最近倒是挺火的,是客戶資料平臺(customer data platform)。

以下是摘要,想看更多的,文末有分享連結。

●CRM,它應該是企業的核心客戶的系統,是以交易ID或者Leads ID定義資料的系統,存放的主要是“井水不犯河水”時代的那些客戶的靜態資料。

●DMP,它應該是以廣告投放管理,尤其是程式化廣告投放管理為核心目的的受眾資料系統。

●CDP,它應該是支援流量運營、使用者運營、客戶運營、潛在客戶運營的人群細分的資料系統。

DMP的核心思想,是記錄每一個個體消費者在不同營銷觸點上的“互動痕跡”,基於這些痕跡,區分不同消費者的特徵,並對不同特徵的消費者群體提供針對性營銷策略或是輸出這些人群作為細分受眾給其他營銷執行機構。

因此,它具有幾個核心特徵:

1. 它能夠收集不同營銷觸點上的資料,如果有遇到不能收集的營銷觸點的情況,也應該能夠整合別人收集的資料;

2. 它能夠透過這些資料,建立不同的消費者的特徵,即建立消費者特徵屬性的標籤;

3. 它能夠依據不同的消費者屬性標籤及消費者觸點上的資料,將具有同樣特徵或資料的消費者篩選出來,並組合成特定受眾人群;

4. 它能夠分析特定人群的觸點資料和屬性資料,並進而判斷已經執行的營銷決策是否合理,或是為即將執行的營銷提供策略支援;

5. 它能夠將它生成的特定細分人群及相關資料輸出給營銷執行機構實現相關人群觸達或投放。

上面的是標準意義上的DMP的意思。圍繞人的資料,收集資料 — 整合資料 — 打標籤 — 人群細分為群主 — 輸出為策略/輸出為人群包 — 投放支援。

DMP的資料來源可以是第一方自己的資料、也可以是合作企業的資料、也可以是購買的公開資料來源或者資料市場裡面的資料。

推薦系統

一個推薦系統效果好與壞最基本的保障、最基礎的是什麼?如果讓我來回答,一定是標籤體系。我這裡說的標籤主要是針對物料的,對於電商平臺來說就是商品;對於音樂平臺來說就是每一個首歌,對於新聞資訊平臺來說就是每一條新聞。下一篇要介紹的是使用者畫像,畫像中那些使用者實時變化的興趣點大都也是來自於標籤體系,依據使用者長期和短期行為中對於物料搜尋、點選、收藏、評論、轉發等事件,將物料的標籤傳導到使用者畫像上,就構成了使用者的實時畫像和離線畫像中的各個動態維度。

使用者畫像系統

所謂的使用者畫像系統,顧名思義,就是對使用者進行一些畫像……這句話好像啥資訊量也沒有。但說白了,其實就是對使用者的特徵進行提煉、進行復原。

功能上,其實主要分為兩大系統,一部分是標籤系統,一部分畫像系統。使用者標籤是整個系統的資料基礎,是連結標籤系統和畫像系統的橋樑。除此之外,也包括一些人群管理等外圍系統功能。

所謂標籤系統,就是利用企業自由資料、第三方資料、採購資料等等,對自有的使用者進行打標籤的處理。標籤系統既可以自主生成標籤,也可以對標籤進行有序管理維護。

所謂畫像系統,就是利用標籤,進行的視覺化分析及各類應用的落地。簡單的,可以是一些統計分析;複雜的,可以是人群的各維度的透視。

資料中臺

在眾多的資料中臺的解決方案中,一個叫做“標籤中心”或“標籤體系”的應用,幾乎成了資料中臺的“標配”。

資料中臺是資料+技術+產品+組織的有機組合,是快、準、全、統、通的智慧大資料體系。與資料倉庫等傳統資料工具相比,資料中臺是一種新的理念,以“技術+業務”為雙驅動,是企業開展新型運營的一箇中樞系統。

因此,如果你將資料中臺定位成一個存資料、管資料的技術平臺,那或許有“分類體系”就可以了。如果你的資料中臺定位的是企業數字化轉型的運營中樞系統,要實現對前端業務的支援和賦能,那“標籤體系”就是資料中臺一個標配。原因前邊介紹過,分類是自上而下的規劃,側重標準化,標籤是自下而上的倒推,注重業務場景。

“數字轉型,場景為王”,在“技術+業務”雙驅模式的資料中臺中,標籤體系、資料萃取將助力企業運營轉型升級。

2、標籤體系建設方法及質量評估標準

—標籤體系構建流程

標籤體系構建原則

原則一:
因此最佳的處理方式是,我們應該放棄頂層的使用者抽象視角,針對各業務線或部門的訴求和實際的應用場景,分別將標籤聚類起來提供給相應部門。

原則二:
標籤生成的自助化能夠讓溝通成本降最低
標籤生成的自助化,可重複修改的規則,降低無效標籤的堆積
釋放資料團隊人力,釋放業務團隊的想象力

原則三:
規則及元資訊維護
排程機制及資訊同步
高效統一的輸出介面

我們回顧標籤體系構建的三原則,本質上是解決了價值、手段、可持續性三方面的問題:以業務場景倒推需求,讓業務方用起來作為最終目標,讓標籤系統價值得以實現;標籤生成的自助化,它解決的是我們用什麼樣的手段去實現價值;有效的標籤管理機制,意味著一套標籤體系能否可持續性地在一家企業裡面運作下去。

總之,對企業最重要的是:一套標籤系統在業務上用起來,能不能覆蓋更廣泛的需求,而不是一個大而全的框架。

標籤體系實施架構

標籤體系架構可以分為三個部分:資料加工層,資料服務層,資料應用層。每個層面面向使用者物件不一樣,處理事務有所不同。層級越往下,與業務的耦合度就越小。層級越往上,業務關聯性就越強。

標籤體系整體設計-業務梳理

以業務需求為導向,可以按下面的思路來梳理標籤體系:

●有哪些產品線?產品線有哪些來源渠道?一一列出

●每個產品線有哪些業務物件?比如使用者,商品

●最後再根據物件聚合業務,每個物件涉及哪些業務?每個業務下哪些業務資料和使用者行為?

標籤體系整體設計-標籤分類

按業務需求梳理了業務資料後,可以繼續按照業務產出物件的屬性來進行分類,主要目的:

●方便管理標籤,便於維護和擴充套件

●結構清晰,展示標籤之間的關聯關係

●為標籤建模提供子集。方便獨立計算某個標籤下的屬性偏好或者權重

梳理標籤分類時,儘可能按照MECE原則,相互獨立,完全窮盡。

標籤層級控制在三到四個為宜。

一級標籤控制中 10 個以內,太多不易於使用。

—標籤體系質量評估標準

為什麼要進行標籤質量評估

想象一下,我們開發了一個“使用者年齡”標籤,業務想針對20–30歲的人進行精準投放。但經過篩選,才篩出來幾千個人,和公司總體使用者相比僅僅是九牛一毛,那這樣的標籤,還有價值不?

因此,對標籤的質量進行科學完整地評估,有助於指導標籤的管理者、開發者不斷地提升標籤質量。透過建立一套完整的評估體系,對於質量過差的標籤,不著急上線,等達到基本的質量要求後再開放給業務使用。不然,既對業務帶來不了價值,也容易讓標籤畫像系統失去使用者的信任。

回過頭來,上面這個例子反映的問題,其實就是標籤的質量差。準確地說,是標籤的覆蓋度太低了。除了覆蓋度,還有很多指標可以衡量一個標籤的質量,咱們在下面詳細展開,主要透過 資料質量、應用質量、業務質量 三個方面來評價標籤的質量。

資料質量評估是標籤質量最基礎的評價,主要分為準確度、覆蓋度、穩定性 三部分。

標籤覆蓋度的含義,是指在一個標籤中,有業務含義的人群數量與總人群數量的比例。

標籤的穩定性也是影響標籤質量的重要因素。

什麼是穩定性呢?舉個使用者年齡標籤的例子。昨天30歲以下的使用者有200萬,佔比10%,今天就成了1000萬,佔比50%。這種標籤資料,你敢用麼?是資料的計算邏輯出現問題,還是其他原因導致?

因此在標籤的質量評估中,標籤值的相對穩定性,是重要的評估標準之一。

應用質量評估是從產品角度出發,評估標籤對於產品應用的價值。

若一個標籤的資料質量高,但是使用者都用不起來,不好用,那麼也是難以發揮出標籤內在的價值。

關於應用價值的衡量,往往會用一些滯後性的指標衡量。基礎假設是,業務人員用的多的標籤,一定是應用質量好的;業務人員用得少的標籤,一定是應用質量弱的。

具體衡量應用多少的指標,可以用【使用次數】、【使用熱度】、【呼叫次數】等來綜合衡量。

對於應用價值低的標籤,可以針對性地進行分析,不斷提升每個標籤的應用價值。

業務質量評估是最不好衡量的,但又是最最重要的。因為相比於資料質量是從資料層出發、應用質量是從產品層出發,業務質量是從業務層出發,是離業務價值最近的。

想象一下,業務如果用了一個標籤,對一群人進行了投放,ROI是日常投放的好幾倍,那這個標籤的價值可以說是毋庸置疑了。這時,我們可以說這個標籤的業務質量很高。

什麼樣的標籤的業務質量會比較高呢?比如:【使用者購買偏好】、【使用者的營銷敏感度】等等。這類的標籤往往都是一些複雜邏輯的演算法標籤,常常有比較強的業務質量。

但這裡存在的一個悖論,就是業務質量是後驗的。即想知道一個標籤的業務質量,就一定要進行投放測試才行。而且往往不同場景的一些投放帶來的結果也不太一樣,就導致業務質量的評估往往很難落地。

這確實是個難點。作者的經驗是,在評估標籤質量時,先重點考慮資料質量和應用質量,這兩者都沒問題的時候,就可以上線開放給業務使用。但對於業務使用標籤後的資料進行迴流,監控標籤應用在業務場景的價值情況。最終可以有個比較公允的衡量。而這個衡量,將對後面標籤的最佳化方向,帶來很強的指導性意義。

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推選

三週一套報表開發系統,原來Excel的頂級替代品是它

詳細解密IT行業的5個崗位,最賺錢的是哪個?

10張架構圖包含Python所有方向的學習路線,你們要的體系全在這

--

--

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
數據分析那些事

數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/