乾貨攻略|Python資料視覺化攻略大全,8000字超詳細!

數據分析那些事
19 min readSep 15, 2021

--

文章來自微信公眾號:杰哥的IT之旅

文章链接:https://mp.weixin.qq.com/s/nUFQRoSynvJToOg-h9Awrg

前言

大家好,今天讓我們看一下使用Python進行資料視覺化的主要庫,以及可以使用它們完成的所有型別的圖表。我們還將看到建議在每種情況下,使用哪個庫以及每個庫的獨特功能。我們將從最基本的視覺化開始,直接檢視資料,然後繼續繪製圖表,最後製作互動式圖表。

我們將使用兩個資料集來適應本文中顯示的視覺化效果,資料集可透過下方連結進行下載。

資料集:github.com/albertsl/datasets

這些資料集都是與人工智慧相關的三個術語(資料科學,機器學習和深度學習)在網際網路上搜索流行度的資料,從搜尋引擎中提取而來。該資料集包含了兩個檔案temporal.csv和mapa.csv。

在這個教程中,我們將更多使用的第一個包括隨時間推移(從2004年到2020年)的三個術語的受歡迎程度資料。另外,我添加了一個分類變數(1和0)來演示帶有分類變數的圖表的功能。mapa.csv檔案包含按國家/地區分隔的受歡迎程度資料。在最後的視覺化地圖時,我們會用到它。

2. pandas

在介紹更復雜的方法之前,讓我們從視覺化資料的最基本方法開始。我們將只使用熊貓來檢視資料並瞭解其分佈方式。

我們要做的第一件事是視覺化一些示例,檢視這些示例包含了哪些列、哪些資訊以及如何對值進行編碼等等。

結果如下:

使用命令描述,我們將看到資料如何分佈,最大值,最小值,均值……

結果如下:

使用info命令,我們將看到每列包含的資料類型。我們可以發現一列的情況,當使用head命令查看時,該列似乎是數字的,但是如果我們查看後續資料,則字符串格式的值將被編碼爲字符串。

結果如下:

通常情況下,pandas都會限制其顯示的行數和列數。這可能讓很多程序員感到困擾,因爲大家都希望能夠視覺化所有資料。

使用這些命令,我們可以增加限制,並且可以視覺化整個資料。對於大型資料集,請謹慎使用此選項,否則可能無法顯示它們。

使用Pandas樣式,我們可以在查看錶格時獲得更多信息。首先,我們定義一個格式字典,以便以清晰的方式顯示數字(以一定格式顯示一定數量的小數、日期和小時,並使用百分比、貨幣等)。不要驚慌,這是僅顯示而不會更改資料,以後再處理也不會有任何問題。

爲了給出每種類型的示例,我添加了貨幣和百分比符號,即使它們對於此資料沒有任何意義。

format_dict = {'data science':'${0:,.2f}', 'Mes':'{:%m-%Y}', 'machine learning':'{:.2%}'}
#We make sure that the Month column has datetime format
df['Mes'] = pd.to_datetime(df['Mes'])
#We apply the style to the visualization
df.head().style.format(format_dict)

我們可以用顏色突出顯示最大值和最小值。

format_dict = {'Mes':'{:%m-%Y}'} #Simplified format dictionary with values that do make sense for our data
df.head().style.format(format_dict).highlight_max(color='darkgreen').highlight_min(color='#ff0000'

結果如下:

我們使用顏色漸變來顯示資料值。

df.head(10).style.format(format_dict).background_gradient(subset=['data science', 'machine learning'], cmap='BuGn')

結果如下:

我們也可以用條形顯示資料值。

df.head().style.format(format_dict).bar(color='red', subset=['data science', 'deep learning'])

結果如下:

此外,我們還可以結合以上功能並生成更復雜的視覺化效果。

df.head(10).style.format(format_dict).background_gradient(subset = ['data science','machine learning'],cmap ='BuGn')。highlight_max(color ='yellow')

結果如下:

Pandas分析是一個庫,可使用我們的資料生成交互式報告,我們可以看到資料的分佈,資料的類型以及可能出現的問題。它非常易於使用,只需三行,我們就可以生成一個報告,該報告可以發送給任何人,即使您不瞭解編程也可以使用。

結果如下:

3. matplotlib

Matplotlib是用於以圖形方式視覺化資料的最基本的庫。它包含許多我們可以想到的圖形。僅僅因爲它是基本的並不意味着它並不強大,我們將要討論的許多其他資料視覺化庫都基於它。

Matplotlib的圖表由兩個主要部分組成,即軸(界定圖表區域的線)和圖形(我們在其中繪製軸,標題和來自軸區域的東西),現在讓我們創建最簡單的圖:

import matplotlib.pyplot as plt
plt.plot(df['Mes'], df['data science'], label='data science')
# The parameter label is to indicate the legend. This doesn't mean that it will be shown, we'll have to use another command that I'll explain later.

結果如下

我們可以在同一張圖中製作多個變量的圖,然後進行比較。

結果如下:

每種顏色代表哪個變量還不是很清楚。我們將通過添加圖例和標題來改進圖表。

結果如下:

如果您是從終端或腳本中使用Python,則在使用我們上面編寫的函數定義圖後,請使用plt.show()。如果您使用的是Jupyter Notebook,則在製作圖表之前,將%matplotlib內聯添加到文件的開頭並運行它。

我們可以在一個圖形中製作多個圖形。這對於比較圖表或通過單個圖像輕鬆共享幾種圖表類型的資料非常有用。

結果如下:

我們可以爲每個變量的點繪製具有不同樣式的圖形:

結果如下:

現在讓我們看一些使用Matplotlib可以做的不同圖形的例子。

散點圖舉例

結果如下:

條形圖舉例

結果如下:

直方圖示例:

結果如下:

我們可以在圖形中添加文本,並以與圖形中看到的相同的單位指示文本的位置。在文本中,我們甚至可以按照TeX語言添加特殊字符。

我們還可以添加指向圖形上特定點的標記。

plt.plot(df['Mes'], df['data science'], label='data science')
plt.plot(df['Mes'], df['machine learning'], label='machine learning')
plt.plot(df['Mes'], df['deep learning'], label='deep learning')
plt.xlabel('Date')
plt.ylabel('Popularity')
plt.title('Popularity of AI terms by date')
plt.grid(True)
plt.text(x='2010-01-01', y=80, s=r'$\lambda=1, r^2=0.8$') #Coordinates use the same units as the graph
plt.annotate('Notice something?', xy=('2014-01-01', 30), xytext=('2006-01-01', 50), arrowprops={'facecolor':'red', 'shrink':0.05}

結果如下:

4. seaborn

Seaborn是基於Matplotlib的庫。基本上,它提供給我們的是更好的圖形和功能,只需一行代碼即可製作複雜類型的圖形。

我們導入庫並使用sns.set()初始化圖形樣式,如果沒有此命令,圖形將仍然具有與Matplotlib相同的樣式。我們顯示了最簡單的圖形之一,散點圖:

結果如下:

我們可以在同一張圖中添加兩個以上變量的信息。爲此,我們使用顏色和大小。我們還根據類別列的值製作了一個不同的圖:

sns.relplot(x='Mes', y='deep learning', hue='data science', size='machine learning', col='categorical', data=df)

結果如下:

Seaborn提供的最受歡迎的圖形之一是熱圖。通常使用它來顯示資料集中變量之間的所有相關性:

結果如下:

另一個最受歡迎的是配對圖,它向我們顯示了所有變量之間的關係。如果您有一個較大資料集,請謹慎使用此功能,因爲它必須顯示所有資料點的次數與有列的次數相同,這意味着通過增加資料的維數,處理時間將成倍增加。

結果如下:

現在讓我們做一個成對圖,顯示根據分類變量的值細分的圖表。

結果如下:

聯合圖是一個非常有用的圖,它使我們可以查看散點圖以及兩個變量的直方圖,並查看它們的分佈方式:

結果如下:

另一個有趣的圖形是ViolinPlot:

結果如下:

我們可以像使用Matplotlib一樣在一個圖像中創建多個圖形:

fig, axes = plt.subplots(1, 2, sharey=True, figsize=(8, 4))
sns.scatterplot(x="Mes", y="deep learning", hue="categorical", data=df, ax=axes[0])
axes[0].set_title('Deep Learning')
sns.scatterplot(x="Mes", y="machine learning", hue="categorical", data=df, ax=axes[1])
axes[1].set_title('Machine Learning')

結果如下:

5. Bokeh

Bokeh是一個庫,可用於生成交互式圖形。我們可以將它們導出到HTML文檔中,並與具有Web瀏覽器的任何人共享。

當我們有興趣在圖形中查找事物並且希望能夠放大並在圖形中移動時,它是一個非常有用的庫。或者,當我們想共享它們並給其他人探索資料的可能性時。

我們首先導入庫並定義將要保存圖形的文件:

我們繪製所需內容並將其保存在文件中:

p = figure(title='data science', x_axis_label='Mes', y_axis_label='data science')
p.line(df['Mes'], df['data science'], legend='popularity', line_width=2)
save(p)

結果如下:

將多個圖形添加到單個文件:

output_file('multiple_graphs.html')
s1 = figure(width=250, plot_height=250, title='data science')
s1.circle(df['Mes'], df['data science'], size=10, color='navy', alpha=0.5)
s2 = figure(width=250, height=250, x_range=s1.x_range, y_range=s1.y_range, title='machine learning') #share both axis range
s2.triangle(df['Mes'], df['machine learning'], size=10, color='red', alpha=0.5)
s3 = figure(width=250, height=250, x_range=s1.x_range, title='deep learning') #share only one axis range
s3.square(df['Mes'], df['deep learning'], size=5, color='green', alpha=0.5)
p = gridplot([[s1, s2, s3]])
save(p)

结果如下:

6. altair

我認爲Altair不會給我們已經與其他圖書館討論的內容帶來任何新的東西,因此,我將不對其進行深入討論。我想提到這個庫,因爲也許在他們的示例畫廊中,我們可以找到一些可以幫助我們的特定圖形。

7. folium

Folium是一項研究,可以讓我們繪製地圖,標記,也可以在上面繪製資料。Folium讓我們選擇地圖的提供者,這決定了地圖的樣式和質量。在本文中,爲簡單起見,我們僅將OpenStreetMap視爲地圖提供者。

使用地圖非常複雜,值得一讀。在這裏,我們只是看一下基礎知識,並用我們擁有的資料繪製幾張地圖。

讓我們從基礎開始,我們將繪製一個簡單的地圖,上面沒有任何內容。

結果如下:

我們爲地圖生成一個交互式文件,您可以在其中隨意移動和縮放。

我們可以在地圖上添加標記:

m2 = folium.Map(location=[41.38, 2.17], tiles='openstreetmap', zoom_start=16)
folium.Marker([41.38, 2.176], popup='<i>You can use whatever HTML code you want</i>', tooltip='click here').add_to(m2)
folium.Marker([41.38, 2.174], popup='<b>You can use whatever HTML code you want</b>', tooltip='dont click here').add_to(m2)
m2.save('map2.html')

結果如下:

你可以看到交互式地圖文件,可以在其中單擊標記。

在開頭提供的資料集中,我們有國家名稱和人工智能術語的流行度。快速視覺化後,您會發現有些國家缺少這些值之一。我們將消除這些國家,以使其變得更加容易。然後,我們將使用Geopandas將國家/地區名稱轉換爲可在地圖上繪製的座標。

from geopandas.tools import geocode
df2 = pd.read_csv('mapa.csv')
df2.dropna(axis=0, inplace=True)
df2['geometry'] = geocode(df2['País'], provider='nominatim')['geometry'] #It may take a while because it downloads a lot of data.
df2['Latitude'] = df2['geometry'].apply(lambda l: l.y)
df2['Longitude'] = df2['geometry'].apply(lambda l: l.x)

結果如下:

現在,我們已經按照緯度和經度對資料進行了編碼,現在讓我們在地圖上進行表示。我們將從BubbleMap開始,在其中繪製各個國家的圓圈。它們的大小將取決於該術語的受歡迎程度,而顏色將是紅色或綠色,具體取決於它們的受歡迎程度是否超過某個值。

m3 = folium.Map(location=[39.326234,-4.838065], tiles='openstreetmap', zoom_start=3)
def color_producer(val):
if val <= 50:
return 'red'
else:
return 'green'
for i in range(0,len(df2)):
folium.Circle(location=[df2.iloc[i]['Latitud'], df2.iloc[i]['Longitud']], radius=5000*df2.iloc[i]['data science'], color=color_producer(df2.iloc[i]['data science'])).add_to(m3)
m3.save('map3.html')

結果如下:

在何時使用哪個庫?

有了各種各樣的庫,怎麼做選擇?快速的答案是讓你可以輕鬆製作所需圖形的庫。

對於項目的初始階段,使用Pandas和Pandas分析,我們將進行快速視覺化以瞭解資料。如果需要視覺化更多信息,可以使用在matplotlib中可以找到的簡單圖形作爲散點圖或直方圖。

對於項目的高級階段,我們可以在主庫(Matplotlib,Seaborn,Bokeh,Altair)的圖庫中搜索我們喜歡並適合該項目的圖形。這些圖形可用於在報告中提供信息,製作交互式報告,搜索特定值等。

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。各位也可以關注我的Facebook,按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!期待你與我互動起來~

文章推選

三週一套報表開發系統,原來Excel的頂級替代品是它

詳細解密IT行業的5個崗位,最賺錢的是哪個?

10張架構圖包含Python所有方向的學習路線,你們要的體系全在這

--

--

數據分析那些事
數據分析那些事

Written by 數據分析那些事

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

No responses yet