如何識別商業資料報告中的假資料

--

去檢查,發現數據報告中是否有錯誤或者不客觀的資料

對於大部分職場人士來說,當你們拿到一份日報週報或者月報時候,第一反應是去看整個報告中的結論,其實這是大錯而錯!你們是否遇到過當自己花了很多時間在解讀一份資料分析報告的時候,突然間突然發現原來資料報告中的某些資料是錯的,這個時候你們有什麼感受?是不是想把這個報告的作者罵一頓?我之前在參加很多企業的工作例會的時候,這種場景反覆的出現,主要原因就是,大家根本沒有意識到在解讀資料報告的第一步,其實是應該是去檢查,發現數據報告中是否有錯誤或者不客觀的資料。

商業報告解讀和資料分析動作的第一步永遠是資料的清洗和整理。昨天在群裡面和大家聊這個問題的時候,有些人說我的資料是從公司系統匯出來的,沒有問題,肯定是真的;或者說我的資料是某個權威機構釋出的,也不會有問題的。說這種話的人一般太年輕了,這是一個人艱必拆的過程,這是一個多麼痛的領悟的過程,我曾經在資料分析師的圈子裡面做過一個調查資料分析師的十大傷心事件,這一條排在第一,話不多說上圖。

問題來了:你中槍幾條?

所以建議大家今天看完這篇文章之後,把你的公司的一些日報週報月報,等資料拿出來,再看看,看看是否也有一些不正確或者是客觀的資料,做一個深度練習題。

需要我們判斷是否正確的資料和資訊包括:

1,你公司內部的各種商業報告,日報週報月報,營運報告,銷售報告,商品報告,生產報告都通通歸到這個範疇。

2,來源於外部渠道的行業相關報告,統計資料,平臺數據等。比如你的客戶提供給你的競爭對手資料。

3,網際網路上的一些資料和資訊。相信大家有共識,網際網路上一些假的資料,假的資訊非常之茂盛。其實很容易理解,很多網際網路的資料都是基於PR為目的來發布的,不是為了給你看真實的資料,而是為了打廣告,從而獲得關注、傳播和流量。例如每年的雙11,各大公司紛紛公佈自己的實時銷售資料,其實這些資料背後都是經過各種處理、加權、篩選後才給大家看的。

4,資訊也需要甄別真假。我們重視資料,但往往忽略了對資訊的判斷。在網際網路時代資料是一種資訊,資訊背後也是資料,他們是互相交融的,同樣在網際網路上也充斥著這種虛假的資訊。例如微博、朋友圈經常見有人發丟失的小孩,丟失的准考證,傳言誰又收購了誰,誰又即將破產等等,其實這裡面很多資訊都是虛假的資訊。

虛假的資料還會來源你日常的工作和生活中,和客戶的談判,和領導的交流,我閨蜜的竊竊私語……這裡面有大量的資訊也需要我們去進行有效的判別。例如你的男朋友徹夜未歸,你當然需要去判斷他的解釋是否是真實,這也是屬於這個範疇。所以我們可以從日常生活中的方方面面去鍛鍊自己識別假資料和資訊,不客觀資料和資訊的能力。一個人能力的高低,其實從某個方面來說是取決於他對資料和資訊處理能力的高低。

所以解讀資料報告的第一步其實是判斷報告中資料的真假,一般來說資料報告的真假識別有兩種方法邏輯法和數字規則法,今天講邏輯法。

邏輯法包括看資料報告中的極值、平均值、中位數、眾位數、空值、重複值、異常值等方法。

01 極值法

極值法有包括極大值和極小值,有時候助理給你的報告多輸入了一位數字或者點錯了小數點都很容易看出來的,在常態報告中這樣的資料會顯得特別突兀,比較容易看出來。極值法主要是針對報告中容易出現的低階錯誤的一種判斷方法,大家常加練習把它變成一種看報告的習慣。

02 平均值法

這是一種比較大眾化的方法,平均值在我們的工作中無處不在,也可以說無孔不入。平均值判斷資料真假的方法是兩個層面,第一,總體的平均值大於個體的平均值。第二,平均值有誤導,報告中不適合用平均值的方法。

大家看這張圖,你能在30秒內找到問題錯誤的資料嗎?為了迷惑大家,資料比較多,其實平時你們看的資料報告也差不多這樣的資料量吧?

你花了幾秒找到錯誤的資料?

相信眼尖的小夥伴一樣就能看出其中的問題呢,全國的銷售同比增長和全國的退貨率這兩個資料是錯誤的,所有區域的這兩個資料都小於全國平均資料,這怎麼可能呢?這就是總體平均值大於個體平均值的情況,偶爾在一些奇葩報告或助理手抖的時候也會出現。如果你曾經遇到過,那就恭喜你中獎了。

第二平均值有誤導的顯現這是普遍出現的問題,不是所有資料都適合用平均值這個指標的,例如全國平均工資這個資料,每年的春夏之交的時候,有關部門都樂此不疲的公佈這個資料,然後全國人民都吐槽說自己的工資被增長了。是的,平均值有自己的適用範圍,當個體資料呈現正態分佈(知識點,大家可以自行展開學習)的時候才有效,然後我們國家的工資收入兩級分化實在太嚴重,平均值有誤導有被富豪們拉高的趨勢。

再舉一個極端的平均值的例子,假定某個公司有兩個員工,月工資8000元和6000元,當然平均工資就是7000羅。有一天老闆激勵這兩個員工說:“下月開始我們公司要提高平均工資水平,平均工資必須達到1.5萬元”。這兩個下屬高興死了,坐等漲工資。然而過了一個月老闆請來了一個CEO,月工資3.1萬元,三個人的平均工資正好1.5萬。

再說一個可能是真實的案例,數年前,當房價如火箭般躥升時,某位官員卻說要在一年內將**城市的房價降下來,一年後當地的房價真的“如願以償”的被降下來了,背後的秘密就是平均數,只不過之前的資料只是城區的平均房價,一年後把郊區的房子加入資料池,這樣的平均房價不降都難。

其實這些把戲都是資料的處理伎倆,在解讀資料報告的時候我們不能簡單的只看平均值,有的時候還必須要看中位數和眾位數。如果對方只是給到你平均值也一定要問一下這個平均數包括哪些物件(人貨場邏輯),企業平均工資是否包含CEO?企業平均同比增長是否剔除一些異常值。

03 中位數

指一組資料最中間的數字,例如7,10,100(奇數個數時),中位數為10。如果是7,10,20,100(偶數個數時),中位數15(中間兩個數字的平均值)。當資料兩級分化嚴重的時候,中位數比較能反應資料真實的一面,靠譜一些。在每年我的一個數據產品《年度目標制定模板》中,我們採用了上市公司財報資料作為參考,其中同比增長用平均值就有問題,有些公司由於發生了重組等狀況,同比增長資料大的可怕(有基數太小的原因),所以我一律採用中位數作為參考值。

例如17年第一季度所有上市公司的平均同比增長是167.3%,然而中位數只有17.4%的同比增長,顯然後者更有意義。

04 眾位數

指一組資料中出現次數最多的數字,它比較反應大多數人的狀況,所以叫眾位數。善於資料忽悠的HR會在招聘的時候用平均工資,在給老闆彙報工作的時候用中位數或眾位數工資,已期達到不同的目的。

再把平均值、中位數、眾位數再做一個梳理,在平均工資這個指標上,這三個指標大概呈現如下圖的排列(圖片來自於網路)。如果你想報喜不報憂,你會選擇彙報哪個資料?

當然統計局只公佈平均工資其實還有一個技術問題,計算平均工資只需要企業提供工資總數和員工人數即可,但是要統計中位數、眾位數則需要企業提供完整的職員收入明細,這其實是有難度的,沒有想象中那麼簡單。

對於以上四個方法,如果只是一份資料報告還比較簡單,透過肉眼或者簡單的計算就可以得出這四個資料。當資料量比較大的時候(如基礎資料上萬行)肉眼就不管用,此時可以使用excel自帶的函式處理:最大值:max(),最小值:min();第n大值:large(),第n小值:small()。如某個區域最2大值,第5小值這兩個函式就可以派上用場了;平均值:average(),中位數:median(),眾位數:mode()。

05 異常值

對業務豐富的人來說,看資料報告的時候是有第六感覺,有些資料從邏輯上不能馬上判斷是否正確,但是冥冥之中就是覺得這個資料有問題。例如下圖是某公司上個月各分公司HR提報的離職率資料,表面上看這些資料沒有問題。但是對於老江湖的你可能一眼就能看到那兩個扎眼的7.9%和一個7.8%,因為在你的企業有個規定分公司月離職率大於或等於8%要扣分公司HR經理的績效獎。所以,懂了吧?

當然這只是懷疑,疑似有問題,不代表真正有問題。但是關鍵資料這道門檻確實是很多資料要做手腳繞開的動力。例如企業規定,零售賣場月目標完成90–99%營業員按2%提成,100–110%按4%提成,100%就是一個關鍵點位,如果你本月拼死拼活只能完成98%,你會怎麼做?(大家可以討論一下你們知道的那些招兒)所以當某個店鋪最終完成100%或101%的時候,你就可以有理由懷疑一下了。

06 重複值

一個數據報告中出現多次重複的資料,可能是碰巧,也可能是做表的時候忘了刪除,還可能是有鬼。例如下面這經典的一個神樣的資料:我國城鎮登記失業率,它竟然12個季度沒有任何變化,都是神奇的4.1%。資料來自於統計局公告。

重複資料如果出現在同一個表或圖中比較容易識別,另外兩種情況重複就需要考驗讀圖者的記憶力或知識儲備了。

A、和以往的報告重複。作為銷售主管上個月你彙報給經理的客戶拜訪率是45%,本月的月工作總結仍然是45%,這就值得懷疑你根本沒有去改PPT數字的動作,都在敷衍。

B、和其他人的報告重複。作為銷售人員,有些報告互相借鑑是常事,但是你可以借鑑報告的形式,但是千萬別借鑑報告中的資料啊,這很容易被你們的老大看穿的。一個真事兒,當年我在做快消管一個城市的時候(long long ago,九幾年的事情),一個同事就借鑑了我的一份銷售月報,當然他把其中的一些資料也借鑑過去了。後果是他被警告,我被批評,我多冤啊?!

所以資料報告解讀關鍵第一步一定是識別報告中資料的真假,千萬別忘了。閱讀完本文後你們可以在網際網路搜尋(百度文庫有各種資料報告)對應報告來練習這一部分內容,當然基本層面還是日常看報告的時候就養成這個資料鑑別的習慣。

來源於公眾號:資料化管理

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

Excel圖表配色原理

麥肯錫:優秀資料科學家的5個特徵!

《 Python 進階 》中文版(附下載)

8個酷炫視覺化圖表,快速寫出老闆愛看的視覺化分析報告

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet