對於剛進入資料分析行業新手來說,Excel可以被當做一款入門的軟體。在學習R或Python前,事先掌握一定的Excel知識是百利而無一害。Excel憑藉其功能強大的函式、視覺化圖表、以及整齊排列的電子表格功能,使你能夠快速而深入的洞察到資料不輕易為人所知的一面。
但與此同時,Excel也有它的一些不足之處,即它無法非常有效的處理大型資料。這是我曾經遇到的這個問題。當我嘗試使用Excel處理含有20萬行資料的資料集時,就會發現EXCEL執行的非常吃力。Excel並不適用於處理海量資料,雖然在某種程度上,可以透過一些其他的方法讓Excel處理大型資料集,但我更推薦使用 R或Python去處理 ,而不是Excel。
在這篇文章中,我將會提到一些關於Excel使用方面的小技巧,從而可以節省你寶貴的時間。
01 常用的函式
1. Vlookup()
它可以幫助你在表格中搜索並返回相應的值。讓我們來看看下面Policy表和Customer表。在Policy表中,我們需要根據共同欄位 “Customer id”將Customer表內City欄位的資訊匹配到Policy表中。這時,我們可以使用Vlookup()函式來執行這項任務。
對於上面的問題,我們可以在F4單元格中輸入公式“ =VLOOKUP(B4, $H$4: $L$15, 5, 0)” 。按回車鍵後,在City欄位下將會返回所有Customer id為1的城市名稱,然後將公式複製到其他單元格中,從而匹配所有對應的值。
提示:在複製公式中請別忘記使用符號 “$” ,來鎖定Customer表的查詢範圍。這被稱之為絕對引用,也是經常容易出錯的地方。
2. CONCATENATE()
這個函式可以將兩個或更多單元格的內容進行聯接並存入到一個單元格中。例如:我們希望透過聯接Host Name和Request path欄位來建立一個新的URL欄位。
上面的問題可以透過使用公式 “ =concatenate(B3,C3)” 並且下拉複製公式來解決。
提示:相對於“concatenate”函式,我更傾向於使用連線符“&”來解決上述問題,公式為“= B3&C3”
3. LEN()
這個公式可以以數字的形式返回單元格內資料的長度,包括空格和特殊符號。
示例:=Len(B3) =23
4. LOWER(), UPPER() and PROPER()
這三個函式用以改變單元格內容的小寫、大寫以及首字母大寫(即每個單詞的第一個字母)
在資料分析的專案中,這些函式對於將不同大小寫形式的內容轉換成統一的形式將會非常有用。否則,處理這些具有不同特徵的內容將會非常麻煩。
下面的截圖中,A列有五種形式的內容,而B列只有兩種,這是因為我們已經將內容轉換成了小寫。
5. TRIM()
這是一個簡單方便的函式,可以被用於清洗具有字首或字尾的文字內容。通常,當你將資料庫中的資料進行轉儲時,這些正在處理的文字資料將會保留字串內部作為詞與詞之間分隔的空格。並且,如果你對這些內容不進行處理,後面的分析中將產生很多麻煩。
6. If()
我認為在Excel眾多函式之中最有用的一個。 當特定的事件在某個條件下為真,並且另一個條件為假時,可以使用這個公式來進行條件運算。 例如:你想對每個銷售訂單進行評級,“高階”和“低階”。假設銷售額大於或等於5000,則標記為“高階”,否則被標記為“低階”。
02 由資料得出結論
1. 資料透視表
每當你在處理公司的資料時,你需要從“北區分公司貢獻的收入是多少?”或“客戶購買產品A訂單的平均價格是多少?”以及許多類似的其它問題中尋找答案。
Excel的資料透視表將會幫你輕鬆的找到這些問題的答案。資料透視表是一款用於彙總如:計數,求平均值,求和,以及其他依據相關選擇進行特徵計算的功能。它可以將資料錶轉換為反應資料結論的表格,從而幫助你做出決策。請看下面的截圖:
從上圖可以看出,左邊的表格中有銷售產品的細節內容,即以區域分佈和產品的對應關係匹配到每一個客戶。在右邊的表格中,我們按不同區域進行了彙總,並且幫助我們得出了南區有著最高銷售額的結論。
建立資料透視表的方法:
第一步:點選資料列表內的任何區域,選擇: 插入 — 資料透視表。Excel將會自動選擇包含資料的區域,包括標題名稱。如果系統自動選擇的區域不正確,則可人為的進行修改。建議將資料透視表建立到新的工作表,點選New Worksheet(新工作表),然後點選OK。
第二步:現在,你可以看到資料透視表的選項板了,包含了所有已選的欄位。你要做的就是把他們放在選項板的過濾器中,就可以看到在左邊生成相應的資料透視表。
從上圖可以看到,我們將“Region”放入行,“Productid”放入列中,“Premium”放入值中。現在,資料透視表中展示了“Premium”按照不同區域、不同產品費用的彙總情況。你也可以選擇計數、平均值、最小值、最大值以及其他的統計指標。
2.建立圖表
在Excel裡面建立一個圖表,你只要選擇相應的資料,然後按 F11 ,就會自動生成系統預設的圖表。除此之外,你可以手工改變不同的圖表型別。如果你傾向於在當前工作表中生成圖表, 可以按ALT+F1,而不是F11。
當然,在任何一種情況下,只要你建立了圖表,就可以透過定義特定資料來源來展示期望的資訊。
03 資料清洗
1.刪除重複值
Excel有內建的功能,可以刪除表中的重複值。它可以刪除所選列中所含的重複值,也就是說,如果選擇了兩列,就會查詢兩列資料的相同組合,並刪除。
如上圖所示,可以看到A001 和 A002有重複的值,但是如果同時選定“ID”和“Name”列,將只會刪除重複值(A002,2)。
按照下列步驟操作可以刪除重複值: 選擇所需資料-轉到資料面板-刪除重複值
2.文字分列
假設你的資料儲存在一列中,如下圖所示:
如上如所示,我們可以看到A列中單元格內容被“;”所區分。我們需要將其進行分列,建議使用EXCEL的文字分列功能。按照下面的步驟可以實現分列:
選擇A1:A6
點選:資料 — 分列
上圖中,有兩個選項,“分隔符號”和“固定寬度”。我選擇“分隔符號”是因為有分隔符“;”。如果我們希望按照寬度分列,例如:前四個字元為第一列,第五到第十個字元為第二列,則可以選擇按固定寬度分列。
3.點選下一步 — 點選“分號”,然後下一步,然後點選完成
04 基本的快捷鍵
透過快捷鍵來瀏覽單元格或更快速地輸入公式的是最佳的途徑。下面列出了最常用的幾種快捷鍵:
Ctrl + [向下|向上箭頭]:移動到當前列的最底部或最頂部,按Ctrl + [向左|向右箭頭],移動到當前行的最左端和最右端。Ctrl + Shift +向下/向上箭頭:選擇包括從當前單元格直到最頂部或最底部範圍內的資料。Ctrl + Home:定位到單元格A1Ctrl + End:導航到包含資料的最右下角的單元格ALT + F1:建立基於所選資料集的圖表。Ctrl + Shift + L:啟用自動篩選資料功能。Alt +向下箭頭:開啟下拉自動篩選的選單。ALT + D + S:要排序的資料集Ctrl + O:開啟一個新的工作簿Ctrl + N:建立一個新的工作簿F4:選擇範圍,並且按F4鍵,可以將資料引用改為絕對引用,混合引用,相對引用。
注意: 這不是一個詳盡的清單,從字面上講,我使用快捷鍵完成了平日工作的80%。
Excel作為使用最廣泛的資料統計分析軟體,無論你是小白還是資深使用者,總會有一些東西值得你去學習。
文章來源於:大數據分析和人工智慧
文章連結:https://mp.weixin.qq.com/s/J9zFMQSMBMNEOMEnh65Q4g
※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~