Python分析淘寶月餅銷售數據,五仁月餅王者地位不可動搖

距離中秋假期沒幾天了,各個公司都開始秀自家定製的中秋月餅禮盒,假期要走親訪友的手裏也少不了要提一盒月餅。

每年中秋節到,總會去姥姥那裏送中秋,並買上各種各樣的月餅,那個時候科技並不怎麼發達,不僅沒有這麼多形形色色的月餅,也不知道哪些月餅賣得好? 月餅的價格分佈是怎樣的呢? 什麼地方的月餅銷量最高呢? 簡直有十萬個爲什麼,希望別人給我們解答。

隨着科技的飛速發展,互聯網溝通了你我他。通過網上商店月餅的銷量,就可以解決我們想要知道的好多問題。基於此,我爬取了某寶上4000多條月餅的銷售數據,爲大家展示了一幅漂亮的可視化分析儀錶板,解決大家心目中的問題。文末送Code和數據集XDD,感興趣的一起試試吧

可視化大屏效果展示

數據採集

這種方法極其好用,不會出現封IP、封號的情況,大家放心使用!

大家運行這個代碼之前,唯一要做的就是下載與谷歌版本相對應的chromedriver驅動,然後進行相關配置即可。

在此列出部分爬蟲代碼如下:

from selenium import webdriver
# 搜索商品,獲取商品頁碼def search_product(key_word): # 定位輸入框 browser.find_element_by_id(“q”).send_keys(key_word)
# 定義點擊按鈕,並點擊 browser.find_element_by_class_name(‘btn-search’).click()
# 最大化窗口:爲了方便我們掃碼 browser.maximize_window() # 等待15秒,給足時間我們掃碼
time.sleep(15)
# 定位這個“頁碼”,獲取“共100頁這個文本”
page_info = browser.find_element_by_xpath(‘//div[@class=”total”]’).text
# 需要注意的是:findall()返回的是一個列表,雖然此時只有一個元素它也是一個列表。 page = re.findall(“(\d+)”,page_info)[0]
return page

數據清洗

爬取到的原始數據如下:

原始數據

整個數據看上去算是比較乾淨,但是還是有幾個地方值得我們處理一下。

  1. 爬取到的原始數據沒有列名,我們需要添加一個新列名;
  2. 整個爬蟲過程中,會出現重複數據,我們需要提前去重處理;
  3. 將購買人數爲空的記錄,替換成0人付款;
  4. 將購買人數轉換爲銷量(注意部分單位爲萬);
  5. 刪除無發貨地址的商品,並提取其中的省份;

數據清洗部分代碼如下:

# 提取數值
df[‘num’] = [re.findall(r’(\d+\.{0,1}\d*)’, i)[0] for i in df[‘付款人數’]] # 提取數值
df[‘num’] = df[‘num’].astype(‘float’) # 轉化數值型
# 提取單位(萬)df[‘unit’] = [‘’.join(re.findall(r’(萬)’, i)) for i in df[‘付款人數’]] # 提取單位(萬)
df[‘unit’] = df[‘unit’].apply(lambda x:10000 if x==’萬’ else 1)
# 計算銷量df[‘銷量’] = df[‘num’] * df[‘unit’]

現在來看看,清洗後的數據是啥樣的?

數據清洗後的數據

可視化展示

  1. 月餅銷量Top10的柱形圖;
  2. 店鋪月餅銷量Top10的柱形圖;
  3. 全國月餅銷量的地域分佈地圖;
  4. 不同價格區間的月餅銷量圓環圖;
  5. 月餅銷售關鍵字的詞雲圖;

鑑於整個文章排版,本文可視化部分的Code均可在本文末尾獲取。

1、月餅銷量Top10的柱形圖

結論分析:銷量Top10的月餅,其實對於我們選購月餅還是挺有指導意義的。從圖中可以看到這個稻香村月餅,賣的還是極其好的,銷量排名前10的產品中,稻香村月餅佔據了3個位置。還有一個名字特別熟悉:五芳齋,只知道他家的糉子做的好,原來月餅也做的不錯,所以說品牌效應還是很好的。那麼你是否可以再看看,這些店裏面是否有其他更好喫的點心呢?

2、店鋪月餅銷量Top10的柱形圖

結論分析:這裏圖中顯示的結果,和第一張圖顯示的結果不謀而合,就不再過多的解釋了。唯獨感興趣的還是這個稻香村,爲啥銷量如此好?百度一下得知原來是一家百年老店。

3、全國月餅銷量的地域分佈地圖

結論分析:從圖中可以看出,廣東、浙江、山東、福建、北京的月餅銷量,在全國都是遙遙領先的。查閱資料可以發現,它們幾乎都有自己的品牌,像廣東的廣式月餅、浙江的衢式月餅、山東的魯式月餅等。廣式月餅重油重糖、京式月餅重油輕糖、魯式月餅口味清淡、蘇式月餅重甜。大家可以根據自己的需求,給親戚長輩們合理挑選符合口味的月餅哦。

4、不同價格區間的月餅銷量圓環圖

結論分析:當然價格纔是大家關注的焦點。觀察上圖可以發現,月餅的價格幾乎是處在中間的、能被大家接受的範圍(22–115),再稍微貴一點的就是115–633這個區間(還可以接受),而處在633元以上的月餅幾乎爲0。畢竟中秋節是一個傳統節日,適中的價格才能被大家接受,利潤就這麼幾天,薄利多銷纔是王道。

5、月餅銷售關鍵字的詞雲圖

結論分析:從圖中可以看出,傳統的四大月餅(京式月餅、廣式月餅、滇式月餅、蘇式月餅)中廣式月餅極其受歡迎(PS:我還沒喫過),月餅口味上,小時候經常喫的五仁月餅的王者地位不可動搖,豆沙月餅提及率也很高,一直是很多孩子的最愛!還有現在出來的各種各樣的新鮮口味,像美心、酥皮、心奶、燕窩、白蓮等等,你到底喜歡哪一個呢?

關注數據君的臉書:

文源:數據分析與統計學之美 作者:黃偉呢

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/