文/無小意
本文是通過對秦路的課程七週成為數據分析師進行整體總結與補充。
課程詳細資料請自行查詢。
第一週:數據分析思維
1.核心數據分析思維
- 結構化
- 公式化
- 業務化
- 象限法
- 多維法
- 假設法
- 指數法
- 80/20法則(帕累托法則)
- 對比法
- 漏斗法
- 好奇心!
- 案例分析
2.數據分析思維七大技巧
- 象限法
- 多維法
- 假設法
- 指數法
- 80/20法則(帕累托法則)
- 對比法
- 漏斗法
3.數據分析思維鍛煉方法
1.啤酒與尿布
2.去思考生活中商業案例的表現,背後的原理、擺放方法和數據差異
3. 生活中的練習
- 例如夜市,一天的人流量?一人的流量?營業額?數據的分析方式?
- 換做你是商家,如何提高店面的利潤?
4.工作中的練習
- 為什麼領導和同事不認可?
- 如果我職位更高,我會怎麼分析?
- 複盤,對於一個月,一年前等等的案例進行對比。需要,每個案例有記筆記的習慣,效果更好
- 歷史分析,用這三種分析思維,分析更多的事情。結構化,公式化,業務化。
4.總結
- 核心思維為重點!結合案例理解了,這三種思維的重要性,運用範圍極廣,對於問題的思考都可以從這三方面開展。
- 七大技巧,展示了具體的分析技巧,但是需要配合分析工具如Python、excel中去實現他,需要記住特點,在需要時運用到數據分析中
- 數據分析思維的鍛煉,來自於長期的思考習慣,從生活、案例和工作中日積月累的思考與積累,通過自己真正“思考”出來的結果,才是“真正”理解的思維。
第二週:業務篇-指標
1.為什麼業務重要
唯有理解業務,才能建立完整的一套體系,簡稱業務數據模型。
想進入某個行業的數據分析,儘量需要一些業務知識,敲門磚。
2.經典的業務分析指標
模型未動,指標先行。
如果你不能衡量它,你就不能無法增長它
運用第一週的核心思維:結構化、公式化和業務化,形成指標。
指標建立的要點:
- 核心指標(公司和部門都認同的大目標,根據實際公司情況而認定)
- 好的指標應該是比率
- 好的指標能帶來顯著效果
- 好的指標不應該虛榮(如投入的錢很多,新增用戶量大)
- 好的指標不應該複雜
3.市場行銷指標
市場行銷領域:
1.客戶/用戶生命週期
- 企業/產品和消費者再整個業務關係階段的週期。
- 不同業務劃分的階段不同。傳統行銷中,分為潛在用戶,興趣用戶,新客戶,老客戶,流失客戶。
2.用戶價值
- 業務領域千千萬萬,怎樣定義最有效用戶?
- 用戶貢獻=產出量/投入量*100%
- 用戶價值=貢獻1+貢獻2+…
- 金融行業的用戶價值,大概可以為存款+貸款+信用卡+年費+…-風險
- RFM模型
- 具體看業務背景,確立RFM模型中的重心,進行更改和修正。
- 用戶分群,行銷矩陣
- 提取用戶的幾個核心維度,例如RFM,用象限法將其歸納和分類
3. 產品運營指標
AARRR框架
用戶獲取,用戶活躍,用戶留存,營收,傳播
1.用戶獲取
- 管道到達量:俗稱曝光量。有多少人看到產品推廣相關的線索。
- 管道轉換率:有多少用戶因為曝光而心動Cost Per,包含CPM、CPC、CPS、CPD和CPT等。
- 管道ROI:推廣行銷的熟悉KPI,投資回報率,利潤/投資* 100
- 日應用下載量:App的下載量,這裏指點擊下載,不代表下載完成。
- 日新增用戶數:以用戶註冊提交資料為基準
- 獲客成本:為獲取一位用戶需要支付的成本
- 一次會話用戶數占比:指新用戶下載完App,僅打開過產品一次,且該次使用時長在2分鐘以內。(衡量管道可靠程度)
2.用戶活躍
- 日/周/月活躍用戶應用下載量:活躍標準是用戶用過的產品,廣義上,網頁遊覽內容算用,公眾號下單算用,不限於打開APP。
- 活躍用戶占比:活躍用戶數再總用戶數的比例,衡量的是產品健康程度
- 用戶會話session次數:用戶打開產品操作和使用,直到推出產品的整個週期。5分鐘無操作,默認結束
- 用戶訪問時長:一次會話的持續時間。
- 用戶平均訪問次數:一段時間內的用戶平均產生會話次數。
3.用戶留存
用戶在某段時間內使用產品,過了一段時間後仍舊繼續使用的用戶。
4.營收
- 付費用戶數:花了錢的
- 付費用戶數占比:每日付費用戶占活躍用戶數比,也可以計算總付費用戶占總用戶數比
- ARPU:某個時間段內,每位用戶平均收入
- ARPPU:某時間段內每位付費用戶平均收入,排除了未付費。
- 客單價:每一位用戶平均購買商品的金額。銷量總額/顧客總數
- LTV:用戶生命價值週期,和市場行銷的客戶價值接近,經常用在遊戲運營電商運營中。
- LTV(經驗公式):ARPU*1/流失率(比如說,一月份有一百個用戶,這個月用戶流失率0.3,那麼1/流失率=3.3,那麼一月份這批客戶在3.3個月後流失光,這段時間的LTV=ARPU(用戶的平均消費100元) *3.3 =330元),適合敏捷專案
5.傳播
- K因數:每一個用戶能夠帶來幾個新用戶
- K因數=用戶數平均邀請人=人數邀請轉換率
- 用戶分享率:某功能/介面中,分享用戶數占遊覽頁面人數占比
- 活動/邀請曝光量:線上傳播活動中,該活動被曝光的次數
4. 用戶行為指標
1.用戶行為
- 沒有特別重要的框架,主要在於理解與應用。
- 功能使用率:使用某功能的用戶占活動總活躍數之比。(比如點贊、評論、收藏、搜索等等)
- 用戶會話:會話(session),是用戶在一次訪問過程中,從開始到結束的整個過程。在網頁端,30分鐘內沒有操作,默認會話操作結束
2.用戶路徑
路徑圖:用戶在一次會話的過程中,其訪問產品內部的遊覽軌跡,通過此,可以加工出關鍵路徑轉換率。
全產品路徑如上,但是關注關鍵路徑才重要。比如下單的路徑,觀察各個路徑的情況,進行優化。
5.電子商務指標
購物籃分析
- 筆單價:用戶每次購買支付的金額,即每筆訂單的支出,對應客單價
- 件單價:商品的平均價格
- 成交率:支付成功的用戶在總的客流量中的占比
- 購物籃係數:平均每筆訂單中,賣出了多少商品,與商品關聯規則有關。
- 複購率:一段時間內多次消費的用戶占到總消費用戶數之比(忠誠度)
- 回購率:一段時間內消費過的用戶,在下一段時間內仍然有消費行為的占比(消費欲望)
6. 流量指標
1.遊覽量和訪客量
- PV:遊覽次數。以發起請求次數來判定
- UV:一定時間內訪問網頁的人數,UV會通過cookie或IP的訪問次數來判定次數
微信中的網頁,UV是不准確的,微信不會保存cookies。
2.訪客行為
- 新老客戶占比:衡量網站的生命力(適宜就好,過高過低就不行)
- 訪客時間:衡量內容品質,不是看內容的UV,而是內容的訪問時間。
- 訪客平均訪問頁數:衡量網站對訪客的吸引力,是訪問的深度
- 來源:與多維分析相關,訪客從哪里來,遊覽方式?手機機型?通過來源網站的參數提取。
- 退出率:從該頁退出的頁面訪問數/進入該頁的訪問數(衡量網頁產品結構)
- 跳出率:遊覽單頁即退出的次數/訪問次數(衡量落地頁、行銷頁)
7.怎麼生存指標
組合!
- 訪客訪問時長+UV=重度訪問用戶占比(遊覽時間五分鐘以上的用戶占比)
- 用戶會話次數+成交率=有效消費會話占比(用戶在所有的會話中,其中有多少次有消費?)
- 機器學習,PCA學習,指數法,生成指標。(偏應用)
8.總結
- 通過三大核心思維,分解-理解-尋找,得到重要的指標。
- 根據不同行業,運用不同合適的模型
- 公司在不同時期、階段和模式都有不同的指標,需要有根據目的,從更高層次去尋找有效的指標。
第二週:業務篇-框架與模型
1.業務的分析框架
- 從第一周數據分析思維,核心技巧,工具,都為了這部分做鋪墊。
- 讓指標形成閉環,成為真正靠譜的模型
從三個角度出發
- 從指標的角度出發
- 從業務的角度出發
- 從流程的角度出發
2.市場行銷模型
本質是樹形結構,從樹形思維導圖演變而來,但是加入閉環的迴圈結構。
3.AARRR模型
- 核心是形成閉環。
- 例子:餓了嗎紅包。
- 二次啟動:推送啟動率、有效推送到達率、用戶打開率、不用推送的轉化率(可以使用漏斗圖)
4.用戶行為模型(內容平臺)
- 例如,知乎。完整閉環,各個環節都能進行分析
- 點贊/評論/收藏分析:點贊/評論/收藏用戶活躍占比、內容指數等等
5.電子商務模型
遇到結構外的分析內容,在外面額外添加就行,如右上角。
分析各個節點,得到指標。例如,購物車分析:
- 不用商品類別的占比(對比法)
- 不同價格檔次的占比(象限法)
- 不同商品的下單支付率(漏斗法)
6.流量模型
指標結構框架如上,分析各個要點。
分析搜索流量:
有些指標在其他模型也有,模型之間沒有嚴格界限,可以共同使用相同指標
怎麼從空白數據分析需求開始?
- 設立核心指標
- 經過三種核心思維
- 聚合成樹狀圖
- 形成大量指標
- 將指標變成分析框架,閉環模型圖,例如上面案例
- 每個節點都能分析,利用上周的七大分析工具。
7.如何應對各類業務場景
新手,面對數據分析依然是沒有思路進行分析?
1.練習
重點,在於練習。參考上面,如何鍛煉數據分析思維。
例如,出門的夜市商鋪、京東的電商產品框架、閱讀資訊軟體。
2. 熟悉業務
從熟悉的入手培養業務sense
3.應用三種核心思維
打開Xmind思維導圖,開始畫畫。
4.歸納和整理出指標
對於基本完整的思維導圖,提煉出,複購率、活躍度和用戶行為等等基本指標結合。
5.畫出框架
PPT,等等其他軟體。
6.檢查、應用、修正
沒有框架是完美的,在時間維度上需要檢查。
7.應用和迭代
在工作中應用,先從小問題開始,再把各個小問題組合成大問題。
8.如何應對業務場景(實踐測試)
以科賽數據分析平臺為例子,參考視頻,設計了一個分析體系。
9. 數據管理
- 30%數據統計,70%數據管理
- 數據管理,重中之重。一直銘記,以後一定會在數據這條路上走的更遠。
10.總結
- 框架,在某種程度上,是思維之下最高的體現。
- 框架儘量先形成閉環(樹狀圖為核心),再逐點分析突破
- 通過設計框架,運用合適的指標,形成模型,實現最終的業務目標。
第三周:Excel篇
Excel常用於敏捷,快速,需要短時間相應的場景下是非常便捷的數據處理工具。
相對於語言類例如python和R等則用於常規的,規律的場景中應用,便於形成日常規則統計分析。
對於學習的路徑:Excel函數 — ->SQL函數 — — →python
必知必會內容:保證使用版本是2013+;培養好的數據表格習慣;主動性的搜索;多練習
Excel常見函數
1.文本函數
- 查找文本位置:find(“字元”,位置),常與left()提取所需要的位數組合使用。
- 文本拼接函數:concatenate
- 文本替換函數:replace
- 刪除字串中多餘的(前後的)空格:trim
- 文本長度:len()
2.關聯匹配函數
LOOKUP
VLOOKUP
INDEX:相當於數組定位
MATCH:查找數據在數組中的位置
OFFSET:偏移函數
ROW
COLUMN
HYPERLINK:去掉超鏈接
3.邏輯運算函數
- ture — — 1 false — — -0 判斷是真是假
- 通常配合其他函數進行判斷,相加判斷滿足條件的個數
- if函數
- is系列函數
- sum
- sumproduct:特殊用法 — — 直接累加對應相乘
- count
- max / min
- rank:查找排名
- rand randbetween
- average
- quartile:分位數,第幾分位數
- stdev
- substotal:功能豐富,號稱“瑞士軍刀”
- int:向下取整函數
- round:四捨五入取整函數(可在小數點位置取整數)
4.計算統計函數
rand:亂數字,用來隨機抽樣使用
多條件就和和多條件計數的情況下是非常多的,所以countifs和sumifs用的是非常的多,基本能搞定所有的統計報表,達到即時統計。缺點就是數據量達到一定程度後,Excel運行會比較慢
5.時間序列
時間的本質是數字
周函數中,中國的習慣方式參數常選擇2
常用時間序列函數
- year
- month
- day
- date
- weekday
- now
- weeknum
- today
6.Excel使用常見技巧
快捷鍵
- ctrl+方向鍵,游標快速移動
- ctrl+shift+方向鍵,快速框選
- ctrl+空格鍵,選定整列
- shift+空格鍵,選定整行
- ctrl+A 選擇整張表
- alt+enter 換行
功能
- 分裂功能;查找替換;數據條(可視化);數據透視表(水晶表);凍結首行;
- 數據切片:進行快速篩選(一般和多維分析關聯在一起的),可以和作圖工具進行相關聯
7.Excel常見工具
應用場景:做統計報表和儀錶盤的統計篩選功能
- 數據分析:直接對多想進行描述性統計
- 自定義名稱:再次使用可對其直接引用
- 刪除重複值:
- 下拉列表:
- 迷你圖:
8.總結
個人覺得主要還是在於實踐當中的靈活運用,作為學習,掌握有什麼樣的函數用來做什麼就可以了,工作中遇到的時候可能忘了怎麼拼,但是能直接搜索把函數找出來用知道在哪里面找就好。當然,記得更多的函數好處就是能迅速的通過函數的用法把函數靈活的組合去解決問題。其實最重要的也是通過邏輯關係把各種函數進行組合去解決問題。
第四周:數據可視化
1.有用的圖表
對於數據可視化,大多數人下意識是要好看,下意識的去追求美感,覺得高大尚。其實,美麗的圖表應該是有用的圖表。
數據可視化的目的是讓數據更高效,讓讀者更高效的進行閱讀,而不是自己使用。好的可視化能突出背後的規律,突出重要的因素,最後才是美觀。
數據可視化的最終目的:數據作用的最大化。
2.常見的圖表
1.散點圖
核心:展現數據之間的規律
呈現出一定規律的散點圖可增加趨勢線,並通過選項將規律用公式表示出來。
改進圖:
- 氣泡圖:散點圖的變種,引入第三個度量單位作為氣泡的大小
- 單軸散點圖
2.折線圖
3.柱形圖
4.餅形圖
用面積區分大小,很多情況下肉眼是很難區分的,上圖為玫瑰圖 — -餅圖的變種
5.漏斗圖
6.雷達圖
3.高級圖表
1.樹狀圖
數據量較大、數據類別較多時,能更好的體現數據分類情況。
2.桑基圖
繪製流量變動最開始,網站的流量,監視用戶的行為分析,表示用戶在網站上的行為軌跡,一對多或多對一的關係
3.熱力圖
數據上下波動可用折線圖觀察,但是中間的某種關係展示揭示特殊關係使用熱力圖則可看出來。
4.關係圖
社交,社會媒體,FB的傳播,和用戶之間的關注等
5.箱線圖
揭示數據的分佈情況
6.標靶圖
7.詞雲圖
8.地理圖
數據和空間的關係
4.圖表繪製工具與技巧
1.繪製工具
- 初級 — -Excel
- 中高級 — -編程python、R和BI工具
2.繪製技巧
1.顏色搭配
http://color.adobe.com上有多種主流顏色搭配
2.顏色搭配原則
- 把需要聚焦的數據進行顏色凸顯
- 去掉多餘沒有用的元素
- 橫縱輔助線如果對肉眼觀察無幫助則去掉
- 在報告中,內容交給單元格來解決
- 有設計規範
3.次坐標軸的使用,使得數據能體現更多細節。
3.杜邦分析法
5.Power BI
1.BI基本功能要素
- 單一圖表沒有意義,三表成虎,通過多表多因素展現分析。注意設計的表格揭示的是現象?還是原因?
- BI中,power BI和Tableau是最著名的BI軟體。其中,Power BI免費易用適合新手入門。
BI中的資料連結,最好直接連接資料庫或者CSV檔,儘量不要xls檔。
power BI 的功能特點:
- 製作的圖表可以進行聯動
- 多對對的關係不能進行關聯
- power BI內的函數使用與Excel的函數應用基本一致,不建議話太多的精力去學power BI裏面的函數。
- 建議使用Excel將數據進行清洗後,再已.csv的形式導入BI內進行操作。
- power BI可以引入第三方的一些高級功能(80%都是微軟自己的)來滿足使用者需求,例如添加更多的圖表形式,詞雲圖等等。
- 佈局和設計要素:主次分明+貼合場景+指標結構
- 建議先自己規劃好(自己用草稿紙動手去畫,思路會更好的捋順清楚)
2.Dashbord
- 場景案例
- 考慮是誰在使用?
- 用戶的目的是什麼?
- 是希望進行監控?還是希望分析?
- 用戶怎麼使用?
- 怎麼改善BI?很多BI是有監控的,看使用人都幹什麼,使用那些報表,會使用後臺監控日誌去調整改善BI的佈局
2.指標結構案例
Dashbord是一個不斷迭代的設計過程,需要根據目的,不斷進化。
第五周:Mysql
這裏先放上菜鳥教程的Mysql:http://www.runoob.com/mysql/mysql-tutorial.html
遇到不會的內容,可以再進行查找復習。
1.資料庫的概念
- Mysql是最流行的關係型資料庫管理系統
- 資料庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫
- RDBMS即關係資料庫管理系統(Relational Database Management System)的特點:
- 1.數據以表格的形式出現
- 2.每行為各種記錄名稱
- 3.每列為記錄名稱所對應的數據域
- 4.許多的列和欄組成一張表單
- 5.若干的表單組成database
資料庫的基本類型:char — 文本 int — 整數 float — 小數 date — 日期 timestamp — 秒或者毫秒
2.基本語法
- 以下是基本通用的select語法:
SELECT column_name,column_name
FROM table_name
[WHERE Clause]
[LIMIT N][ OFFSET M]
- select*form data.表名稱 *,為通配符,代表全部
- limit 20,限制搜索結果
- order by,排序依據,可以設定多個依據。
- where,對搜索結果進行一次過濾。其中可使用各種邏輯判斷條件。模糊查找“%京%”
- 跨表分析,需要利用子查詢。join可以用來跨表整合,join left常用
- 對於數據類型的改變,可以在select一行進行設定。
3.總結
- 對於SQL語法,可能是個人記性或者SQL太過生疏,2倍速度看過的視頻,回頭總結時語法都忘記了。
- 加上其他人的經驗,SQL應該是需要到實踐中去記憶與進步。
- https://leetcode.com/ 刷題地址在這裏,面試前刷一些。
第六周:統計學
1.描述性統計學
- 分類數據的描述性統計:單純計數就可以
- 數據描述統計:
- 統計度量:平均數 — 數據分佈比較均勻的情況下進行,中位數,眾數,分位數(4分位、10分位、百分位)
- 圖形:
- 權重預估(分位數)
- 數據分佈(波動情況,標準差,方差)
- 數據標準化:
在實際用用的時候,有很多情況量綱不一致(即數據單位不一樣)導致差異很大無法進行比較
用資料標準化將資料進行一定範圍的壓縮,得到的結果與資料業務意義無關,純粹是資料上的波動達到可進行對比。
xi:資料的具體值
u:平均值
σ:標準差
- 標準化之後一般都是在0上下直接按波動的數字,就可以反應原始數據的典型特徵進行分析。
- 但是,標準化的辦法還需要根據實際數據類型確認,不同標準化辦法的實際標準化意義不同。
- 關於銷量等特徵與時間的關係,需要從多個時間維度去分析才能得到更多結論。如,週期、月份和年份。
- 切比雪夫定理是一個經驗定理,可以用來排除大部分異常值。數據量越大,精確度更高。
2.描述統計視覺化
- 箱線圖:描述一組數據的分佈情況。
Excel中能直接對數據進行作圖,並且還能添加許多對比條件。
2.直方圖:數值數據分佈的精確圖形表示
- 標準型:分佈均勻,出現在大多數場景下。
- 陡壁型:比較容易出現在收費領域
- 鋸齒型:說明數據不夠穩定
- 孤島型:要研究分析孤島產生的原因
- 偏峰型:銷售數據一般會產生偏鋒,一般會出現長尾(或左或右)
- 雙峰型:兩者數據混合一般會形成雙峰
直方圖引出另外一個概念:偏度,統計數據分佈偏斜方向和程度的度量
正態分佈:也稱“常態分佈”
以上公式成立是,有標準正態分佈。
可以用來進行異常值排查,或者假設的數據分佈。
3.概率推斷統計
統計推斷(statistical inference),指根據帶隨機性的觀測數據(樣本)以及問題的條件和假定(模型),而對未知事物作出的,以概率形式表述的推斷。
重要概念:貝葉斯定理
在知道結果A已經發生,想要推導出各種原因發生的可能性情況。
貝葉斯分析的思路對於由證據的積累來推測一個事物發生的概率具有重大作用, 它告訴我們當我們要預測一個事物, 我們需要的是首先根據已有的經驗和知識推斷一個先驗概率, 然後在新證據不斷積累的情況下調整這個概率。整個通過積累證據來得到一個事件發生概率的過程我們稱為貝葉斯分析。
第七週:Python
1.Python基本功能
1.利用Python寫腳本
2.excel視覺化有性能瓶頸,需要Python來實現。
3.Python安裝與數據分析相關如下
- Python的數據科學環境
- Python基礎
- Numpy和Pandas
- 數據視覺化
- 數據分析案例
- 數據分析平臺(羽量級BI)
2.Numpy和pandas
1.Python groupby
mysql不支持分組排序
2.concat和merge
concat是強行耦合
merge,是有共同名,優先表進行耦合
3.多重索引
4.文本函數
填充空值,None需要用np.nan,c語言形式的控制
pd.dropna()去除所有還有空值的列
5.Python pandas apply
6.聚合 apply
7.pandas數據透視
輸出結果
7.python連結資料庫
Pandas中讀取資料庫:
conn=pymysql.connect(host=’localhost’,user=’root’,password=’123456',db=’data_kejilie’,port=3306,charset=’utf8')def reader(query,db):sql=queryengine=create_engine(‘mysql+pymysql://root:123456@localhost/{0}?charset=utf8’).format(db))df=pd.read_sql(sql,engine)return dfreadercur.execute(‘select * from article_link ‘)data=cur.fetchall()cur.close()conn.commit()
3.數據視覺化
視覺化課程沒有進行記錄,詳情可以參照
https://www.kesci.com/apps/home/project/5a6cac37afceb51770d6ee9f
中的視覺化程式碼展示。
4.案例實戰分析
https://www.kesci.com/apps/home/project/5aa687afcbc87e3f21332885
利用課程提供的數據集,簡單分析練手了一下。
5.數據分析平臺
本次使用的是Python中的superset庫,基於web的數據分析平臺。
嚴重提示:安裝這個庫一定要新建一個虛擬環境後再進行pip安裝,不然會使得依賴庫和Anaconda中的部分庫衝突,使得原環境的庫無法正常調用
使用邏輯:
- 先加載資料庫或者數據檔
- 寫好sql語法,進行一定編輯數據集。
- 在silces裏面對於數據集,進行一個個圖的繪畫與調整
- Dashboard裏進行最後圖表的匯合。
詳情安裝可以參考這篇文章:
巧用Superset大數據分析平臺搞定各類圖表 — CSDN博客blog.csdn.net
總結
《七週成為數據分析師》課程大致結束了,通過整理、總結並且回顧了一遍,寫下這一篇文章。課程整體偏向整體性的介紹,對常用部分才做一個實現與技巧的具體講解,整體有輕有重,對於完成的新手來說還是比較不錯的課程進行入門瞭解與基礎學習。前兩週的內容,個人認為是比較重要的,數據分析的思維在每一周的學習中都能有所體現。
回顧系列文:
- 我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,期待你與我的互動!