Python 資料視覺化的 3 大步驟!

數據分析那些事
13 min readMar 2, 2023

--

今天來聊聊,Python實現視覺化的三個步驟:

1️⃣ 確定問題,選擇圖形
2️⃣ 轉換資料,應用函式
3️⃣ 引數設定,一目瞭然

1、首先,要知道我們用哪些庫來畫圖?

matplotlib

Python中最基本的作相簿就是matplotlib,是一個最基礎的Python視覺化庫,一般都是從matplotlib上手Python資料視覺化,然後開始做縱向與橫向拓展。

Seaborn

是一個基於matplotlib的高階視覺化效果庫,針對的點主要是資料探勘和機器學習中的變數特徵選取,seaborn可以用短小的程式碼去繪製描述更多維度資料的視覺化效果圖

其他庫還包括

Bokeh(是一個用於做瀏覽器端互動視覺化的庫,實現分析師與資料的互動);Mapbox(處理地理資料引擎更強的視覺化工具庫)等等

本篇文章主要使用matplotlib進行案例分析

第一步:確定問題,選擇圖形

業務可能很複雜,但是經過拆分,我們要找到我們想透過圖形表達什麼具體問題。分析思維的訓練可以學習《麥肯錫方法》《金字塔原理》中的方法。

這是網上的一張關於圖表型別選擇的總結。

在Python中,我們可以總結為以下四種基本視覺元素來展現圖形:

🔹 點:scatter plot 二維資料,適用於簡單二維關係;
🔹 線:line plot 二維資料,適用於時間序列;
🔹 柱狀:bar plot 二維資料,適用於類別統計;
🔹 顏色:heatmap 適用於展示第三維度;

資料間存在分佈,構成,比較,聯絡以及變化趨勢等關係。對應不一樣的關係,選擇相應的圖形進行展示。

第二步:轉換資料,應用函式

資料分析和建模方面的大量程式設計工作都是用在資料準備的基礎上的:載入、清理、轉換以及重塑。我們視覺化步驟也需要對資料進行整理,轉換成我們需要的格式再套用視覺化方法完成作圖。

下面是一些常用的資料轉換方法:

🔹 合併:merge,concat,combine_frist(類似於資料庫中的全外連線)
🔹 重塑:reshape;軸向旋轉:pivot(類似excel資料透視表)
🔹 去重:drop_duplicates
🔹 對映:map
🔹 填充替換:fillna,replace
🔹 重新命名軸索引:rename

將分類變數轉換‘啞變數矩陣’的get_dummies函式以及在df中對某列資料取限定值等等。

函式則根據第一步中選擇好的圖形,去找Python中對應的函式。

第三步:引數設定,一目瞭然

原始圖形畫完後,我們可以根據需求修改顏色(color),線型(linestyle),標記(maker)或者其他圖表裝飾項標題(Title),軸標籤(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更加直觀。

第三步是在第二步的基础上,为了使图形更加清晰明了,做的修饰工作。具体参数都可以在制图函数中找到。

2、視覺化作圖基礎

Matplotlib作圖基礎

#匯入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Figure和Subplot

matplotlib的圖形都位於Figure(畫布)中,Subplot建立影象空間。不能透過figure繪圖,必須用add_subplot建立一個或多個subplot。

figsize可以指定影象尺寸。

#建立畫布
fig = plt.figure()
<Figure size 432x288 with 0 Axes>
#建立subplot,221表示這是2行2列表格中的第1個影象。
ax1 = fig.add_subplot(221)
#但現在更習慣使用以下方法建立畫布和影象,2,2表示這是一個2*2的畫布,可以放置4個影象
fig , axes = plt.subplots(2,2,sharex=True,sharey=True)
#plt.subplot的sharex和sharey引數可以指定所有的subplot使用相同的x,y軸刻度。

利用Figure的subplots_adjust方法可以調整間距。

subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None)

顏色color,標記marker,和線型linestyle

matplotlib的plot函式接受一組X和Y座標,還可以接受一個表示顏色和線型的字串縮寫:‘g — ’ ,表示顏色是綠色green,線型是 ‘ — ’虛線。也可以使用引數明確的指定。

線型圖還可以加上一些標記(marker),來突出顯示資料點的位置。標記也可以放在格式字串中,但標記型別和線型必須放在顏色後面。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
[<matplotlib.lines.Line2D at 0x8c919b0>]

刻度,標籤和圖例

plt的xlim、xticks和xtickslabels方法分別控制圖表的範圍和刻度位置和刻度標籤。

呼叫方法時不帶引數,則返回當前的引數值;呼叫時帶引數,則設定引數值。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
plt.xlim() #不帶引數呼叫,顯示當前引數;
#可將xlim替換為另外兩個方法試試
(-1.4500000000000002, 30.45)
plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
plt.xlim([0,15]) #橫軸刻度變成0-15
(0, 15)

設定標題,軸標籤,刻度以及刻度標籤

fig = plt.figure();ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0,250,500,750,1000]) #設定刻度值
labels = ax.set_xticklabels(['one','two','three','four','five']) #設定刻度標籤
ax.set_title('My first Plot') #設定標題
ax.set_xlabel('Stage') #設定軸標籤
Text(0.5,0,'Stage')

新增圖例

圖例legend是另一種用於標識圖示元素的重要工具。可以在新增subplot的時候傳入label引數。

fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111)
ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #傳入label引數,定義label名稱
ax.plot(np.random.randn(1000).cumsum(),'k--',label='two')
ax.plot(np.random.randn(1000).cumsum(),'k.',label='three')
#圖形建立完後,只需要呼叫legend引數將label調出來即可。
ax.legend(loc='best') #要求不是很嚴格的話,建議使用loc=‘best’引數來讓它自己選擇最佳位置
<matplotlib.legend.Legend at 0xa8f5a20>

註解

除標準的圖表物件之外,我們還可以自定義新增一些文字註解或者箭頭。

註解可以透過text,arrow和annotate等函式進行新增。text函式可以將文字繪製在指定的x,y座標位置,還可以進行自定義格式

plt.plot(np.random.randn(1000).cumsum())
plt.text(600,10,'test ',family='monospace',fontsize=10)
#中文註釋在預設環境下並不能正常顯示,需要修改配置檔案,使其支援中文字型。具體步驟請自行搜尋。

儲存圖表到檔案

利用plt.savefig可以將當前圖表儲存到檔案。例如,要將圖表儲存為png檔案,可以執行

檔案型別是根據拓展名而定的。其他引數還有:

▪️ fname:含有檔案路徑的字串,拓展名指定檔案型別
▪️ dpi:解析度,預設100 facecolor,edgcolor 影象的背景色,預設‘w’白色
▪️ format:顯示設定檔案格式(’png’,’pdf’,’svg’,’ps’,’jpg’等)
▪️ bbox_inches:圖表需要保留的部分。如果設定為“tight”,則將嘗試剪除影象周圍的空白部分

plt.savefig('./plot.jpg') #保存图像为plot名称的jpg格式图像
<Figure size 432x288 with 0 Axes>

3、Pandas中的繪圖函式

Matplotlib作圖

matplotlib是最基礎的繪圖函式,也是相對較低階的工具。組裝一張圖表需要單獨呼叫各個基礎元件才行。Pandas中有許多基於matplotlib的高階繪圖方法,原本需要多行程式碼才能搞定的圖表,使用pandas只需要短短几行。

我們使用的就呼叫了pandas中的繪圖包。

import matplotlib.pyplot as plt

線型圖

Series和DataFrame都有一個用於生成各類圖表的plot方法。預設情況下,他們生成的是線型圖。

s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))
s.plot() #Series物件的索引index會傳給matplotlib用作繪製x軸。
<matplotlib.axes._subplots.AxesSubplot at 0xf553128>
df = pd.DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D'])
df.plot() #plot會自動為不同變數改變顏色,並新增圖例
<matplotlib.axes._subplots.AxesSubplot at 0xf4f9eb8>

Series.plot方法的引數

▪️ label:用於圖表的標籤
▪️ style:風格字串,’g — ‘
▪️ alpha:影象的填充不透明度(0–1)
▪️ kind:圖表型別(bar,line,hist,kde等)
▪️ xticks:設定x軸刻度值
▪️ yticks:設定y軸刻度值
▪️ xlim,ylim:設定軸界限,[0,10]
▪️ grid:顯示軸網格線,預設關閉
▪️ rot:旋轉刻度標籤
▪️ use_index:將物件的索引用作刻度標籤
▪️ logy:在Y軸上使用對數標尺

DataFrame.plot方法的引數

DataFrame除了Series中的引數外,還有一些獨有的選項。

▪️ subplots:將各個DataFrame列繪製到單獨的subplot中
▪️ sharex,sharey:共享x,y軸
▪️ figsize:控制影象大小
▪️ title:影象標題
▪️ legend:新增圖例,預設顯示
▪️ sort_columns:以字母順序繪製各列,預設使用當前順序

柱狀圖

在生成線型圖的程式碼中加上kind=‘bar’或者kind=‘barh’,可以生成柱狀圖或水平柱狀圖。

fig,axes = plt.subplots(2,1)
data = pd.Series(np.random.rand(10),index=list('abcdefghij'))
data.plot(kind='bar',ax=axes[0],rot=0,alpha=0.3)
data.plot(kind='barh',ax=axes[1],grid=True)
<matplotlib.axes._subplots.AxesSubplot at 0xfe39898>

柱狀圖有一個非常實用的方法:

利用value_counts圖形化顯示Series或者DF中各值的出現頻率。

比如df.value_counts().plot(kind=’bar’)

Python視覺化的基礎語法就到這裡,其他圖形的繪製方法大同小異。

重點是遵循三個步驟的思路來進行思考、選擇、應用。多多練習可以更加熟練。

文章來源:Python數據科學
文章連結:https://mp.weixin.qq.com/s/lpBgcNLqMc9a7avp--194w

※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※※

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推薦

餅圖變形記,肝了3000字,收藏就是學會!

MySQL必須掌握4種語言!

太實用了!4種方法教你輕鬆製作互動式儀表板!

跟資料打交道的人都得會的這8種資料模型,滿足工作中95%的需求

妙呀!一行Python程式碼

回顧十週入門數據分析系列文:

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet