從我的資料分析課程開講以來,收到了不少朋友的問題:我是做營運的想入門資料分析應該怎麼學?新手做資料分析有哪些好用的工具?會用Excel但是做分析總是沒思路怎麼辦?做資料分析有哪些方法……等等一系列的問題,今天我就用這篇文章統一回答關於資料分析入門的問題
資料分析是什麼?
很多人都沒有搞懂資料分析是什麼,包括一些公司和企業也沒搞清楚資料分析的定義。經常聽到有人說投了資料分析的崗位,結果入職之後每天干的活就是取數給業務用,感覺自己就像個取數機。這樣的工作根本不能叫做資料分析。
什麼是資料分析,用我自己的話來說就是針對某個問題,將獲取後的資料用分析手段加以處理,並發現業務價值的過程。這一句話也基本涵蓋了資料分析的流程:目標確定 — — 資料獲取、清洗、整理 — — 資料分析 — — 結果呈現
資料分析需要哪些能力
資料分析師需要會哪些技能,圍繞上面資料分析的基本流程,我把資料分析師的能力分為這樣三大部分:基礎知識、工具技能、分析方法與思維,以下師資料分析的技能大綱,圖中標記了能力等級,大家根據自己的情況對應學習:
資料分析基礎知識
資料分析理論知識這方面,需要掌握是統計學和機器學習相關知識。
1、統計學
毫不誇張的說統計學是整個資料分析的靈魂。判別一個數據分析師強弱的一個重要方法就是,看他對統計規律的敏感度。這裡我們需要從基礎的統計理論(描述性統計、區間估計、假設檢驗等)出發,到基本的統計分析(T 檢驗、方差分析等),最後到商業常用的模型(迴歸分析、方差分析等),學習資料分析背後的邏輯,掌握實用統計學的概念和會利用統計的思維去思考問題。
推薦書籍:《深入淺出資料分析》、《統計學習方法》李航
《深入淺出資料分析》這本書非常推薦作為小白的入門書籍,特別是之前沒有接觸過資料分析的。特點和書名一樣深入淺出,而且圖多。裡面沒有那麼多公式和理論,但其中對於統計的基本原理以及統計問題的來源場景介紹的非常通透,非常符合深入淺出系列定位。如果有之前有一定基礎,建議略過。
2、機器學習
對於想要進階成為高階資料分析師的朋友來說,就要掌握機器學習相關的知識:
特徵工程的基礎:如何統計資料特徵、選用不同的特徵,做模型的優化;
基本的分類演算法:決策樹、隨機森林等;
基本的聚類演算法、資料探勘、常見的機器學習演算法的瞭解等等
機器學習相關的知識學習成本會比較高,對某些同學來說可能會有一定難度,但對於業務型資料分析師來說,一般不會要求你去推導演算法公式,能做到明白不同演算法的適用場景、優缺點、原理大概懂就基本可以了。
推薦學習書籍:《機器學習》周志華,網上也有不少學習視訊,入門的話我推薦吳恩達的coursera機器學習課,
資料分析工具學習
1、PPT
為什麼把PPT放在第一,原因很簡單,我們做資料分析的目的是什麼?當然是為了展示給客戶、上級,供他們做決策。所以PPT作為主流彙報、展示工具,是將分析關鍵結果傳遞給其他的重要手段。學好PPT可以提升溝通和訊息傳遞效率,也是資料分析師必備的技能,具體學習書目我就不做推薦了。
2、EXCEL
EXCEL應該是資料分析師最常用的統計分析工具了,原因是因為方便,所見即所得,而且具有方便的視覺化功能。應該說只有學會了Vlookup,資料透視和基本公式才算EXCEL入門,其次EXCEL最大的驚喜是資料視覺化,擁有大量的圖表模板,可以減輕我們很多工作。
這裡我推薦《誰說菜鳥不會資料分析》這本書作為EXCEL入門。這本書如果作為資料分析入門書籍是不合格的,因為它有太多內容是關於EXCEL基本操作的,關於資料分析的內容反而很少,但是實事求是的講這本書裡面關於EXCEL資料分析常用公式、資料視覺化的內容還是不錯的,可以當成一本入門書籍。
3、ACCESS
為什麼把ACCESS作為中級資料分析師必備技能,原因很簡單,當資料太大,EXCEL又處理不了,又沒有很強的程式設計基礎怎麼辦?ACCESS的優勢就體現出來了,它可以在不用掌握很高深程式語言的條件下,處理Excel所不能承載的大儲存量的資料原始檔案,速度奇快,且易學易用。
作為入門,我推薦《表哥的Access入門》這本書。通過一個簡單的小飯館資料庫管理程式的開發過程,對理解資料庫和學習一些基本的ACCESS很有幫助。
4、SQL
作為資料分析人員,要想獲取資料,肯定就要和資料庫打交道,因此sql肯定是要掌握的,在招聘要求中,sql也是很多資料分析崗位的能力要求之一。學習SQL最快的方法是能自己下載資料庫管理工具,找些資料練習,主要了解一些資料庫查詢語言,where,group by,orderby,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函數等。
推薦書籍:《MYSQL必知必會》
5、Python
Python作為目前最火的程式設計軟體之一,確實在資料分析、資料探勘上有著獨特優勢。是否具備程式設計能力,也是初級資料分析和高階資料分析的分水嶺。以下以python的學習路線圖:
看起來要學習的內容挺多的,但其實python最大的優勢就是語言簡約,非常易於讀寫,如果之前有一定的程式設計基礎,上手很快。推薦書籍《Python程式設計快速上手》,新手可以跟著書裡的內容一步步做,把裡面的項目做完,差不多就入門了
6、商業資料分析軟體
excel做資料分析難以解決大數據量的問題,對沒有程式設計基礎的人來說上手python又比較難,這時候可以選擇利用資料分析軟體來做資料分析,現在市場上的資料分析軟體基本都涵蓋來資料採集、處理、分析到視覺化展現的過程,操作簡單,視覺化效果很棒,比較適合新手入門。比較好用的有tableau 、FineReport等等
資料分析方法
學習資料分析肯定有人上網搜尋了不少資料分析方法,什麼漏斗分析法,PEST,SWOT模型、杜邦分析法等等。並且由於不同版本的演繹,造成了分析方法種類繁多,令人眼花繚亂,關於分析方法值得一說的就是一定要結合行業特點,特別是對業務的掌握,這樣才能事半功倍。下面簡單列幾個比較通用的分析方法:
1、對比分析法
對比分析法常用的基礎分析方法,雖然方法特別簡單,但幾乎所有的分析報告中,都會採取對比分析方法。比如去年同期相比、上個月環比、目標和實際達成相比、各個部門和業務線相比、行業內競品比較、營銷效果對比,等等。這裡需要注意的是我們不管是橫向比較還是縱向比較,比較的雙方一定要有可比性,並且在同一個維度、粒度上去比較,要不是毫無意義的。
2、5W2H分析法
這個方法主要應用於使用者行為研究和專項問題分析,從時間、地點、人物、事情、原因、方式、價格等7個方面對一個問題進行刻畫研究。
3、SWOT
明確資源優勢(Strengths)、競爭劣勢(Weaknesses)、外部環境變化帶來的機會(Opportunities)和威脅(Threats)等,將這些因素有機結合起來,以此確定企業經營戰略。
4、PEST
從政治(Politics)、經濟(Economics)、社會(Society)、技術(Technology)4個視角分析外部環境。
5、杜邦分析法
杜邦分析法是一種用來評價公司盈利能力和股東權益回報水平,從財務角度評價企業績效的一種經典方法。其基本思想是將企業淨資產收益率逐級分解為多項財務比率乘積,這樣有助於深入分析比較企業經營業績。
資料分析思維
分析思維是資料分析師最最核心的競爭力,上面所學習的python、sql、機器學習知識等都是在工具層面,要想使用好他們,還需要分析思維的駕馭。對於分析思維的學習,我建議新人也是從讀書開始,我看過的且比較推薦的書包括:
- 資料分析類
《精益資料分析》、《增長黑客》、《資料化管理:洞悉零售及電子商務營運》、《資料探勘與資料化營運實戰 思路、方法、技巧與應用》
- 產品思維類,如果是想要從事網際網路行業的資料分析師的話,產品思維也是必須要具備的,面試考察點之一
《從點子到產品:產品經理的價值觀與方法論》、《俞軍產品方法論》、《產品思維》
- 邏輯思維類:在面試中邏輯清晰的回答面試官的問題,會為你大大的加分
《金字塔原理》、《學會提問》、《麥肯錫思維》
資料來源
資料是資料分析的基礎,所以獲取大而全的資料就至關重要,以下是我經常獲取資料的幾個渠道:
- 1、國家統計局:https://www.stats.gov.cn/,國家統計局網站上的資料量之齊全,內容之豐富,簡直讓人咂舌,可以作為你宏觀資料分析的來源。
- 2、工信部:https://www.miit.gov.cn/,主要針對的是工業、資訊類資料,上面還有一些行業執行情況分析,可以作為參考。
- 3、中國信通院:中國資訊通訊研究院,針對網際網路多個行業的發展趨勢,會有很多行業白皮書釋出,研究內容較為前沿。
- 4、艾瑞:https://www.iresearch.cn/,主要針對網際網路行業,資料比較單一,亮點是會發布一些艾瑞研究報告,是開闊分析思路的好幫手。
- 5、網易、新浪等入口網站。這些網站的資料較為分散,需要進行整合,最好的方式就是配合爬蟲篩選自己想要的資料。
關注數據君的臉書:
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!