資料分析學習和從業人士常會遇到這個問題:想做資料分析、資料視覺化但是手上沒有高質量的資料。為此,小編花了兩天時間整理了一些日常工作、學習、研究中可能會用到的資料來源網站和平台,希望能給大家一些幫助~~

一、網際網路資料

1、世界網際網路統計資料

網際網路世界統計(Internet World Stats,簡稱IWS)是一個國際性的網際網路資料統計網站。網際網路世界統計為全世界233個國家和世界區域提供最新的世界網際網路使用、人口統計、旅遊統計和網際網路市場調研資料等。

2、StatCounter

StatCounter是美國一家網站通訊流量監測機構,提供各種類型的統計報告以及網站流量統計服務。使用者嵌入StatCounter 程式碼後,可以檢視網站訪問量、訪問來源、訪問地區、瀏覽器類型等。StatCounter統計功能強大、頁面比較簡潔,還可以當做計數器使用,使用者也可以隱藏統計圖示。

3、Netmarketshare

二、新冠肺炎統計資料

1、霍普金斯

約翰霍普金斯大學是全球醫學、公共衛生領域的知名研究機構,也是新冠疫情期間比較官方權威的統計機構。

2、微軟COVID-19資料追蹤

微軟啟動的一個入口網站,以跟蹤全球COVID-19感染。 該網站可通過bing.com/covid訪問,為每個國家提供最新的感染統計資料。

三、官方類統計資料庫

1、各國政府公開資料

各國政府都在瘋開放資料,不僅開放資料量大增,資料的質量也在改善。台灣的政府開放資料已經非常的多,人口、經濟、醫療、旅遊、氣候等等能夠很輕鬆的在相關部門的網站上獲取到。但我們常常會拿這些資料和其他國家的狀況作對比,所以掌握幾個常用國家的資料平台也非常必要。這裡列舉幾個比較常用到的:

沒有列舉出來的國家可以通過搜尋 國家+開放資料 去具體獲取。另外,每個國家不同部門也會開放資料在官網上,比如台灣除了政府資料開放平台外,還有台北市開放資料平台、台灣氣象資料開放平台······,可以去搜尋對應的內容。

8、如果你不願意在google的海洋里搜索,你也可以使用這個網站:Open Data Inception。這是一個導航性質的門戶網站,彙集了全球2600多個開放數據門戶,可以按照地圖去查找。

2、BvD系列数据库

△ 网址:https://bvd.se/

BvD為各國政府金融監管部門、銀行與金融機構、證券投資公司等提供國際金融與各國宏觀經濟走勢分析等專業資料。提供如下5個專業子庫:

3、IMF Data (IMF統計資料庫)

△ 网址:https://www.imf.org/en/Data

IMF收集、加工、釋出的一系列有關國際貨幣組織借貸、匯率以及其他經濟和金融指標的資料和統計資訊,並提供多種版本格式,包括紙本、CD-ROM版,線上版,部分資料同時以年刊/年鑑的形式出版,是世界最權威經濟資料和分析報告來源之一。

4、Compustat資料庫

△ 网址:https://en.wikipedia.org/wiki/Compustat

提供美加地區超過24000家上市公司的詳細季度和年度財務報表與財務指標的歷史資料。收錄北美及全球上市公司近20年的財務資料,提供約180種模板報表、上市或下市公司財務資料等資訊;並可整合最新的或歷史性的主要財務資料以製作所需的報表和圖表。

應用的研究領域包括:資產分析、計量分析、競爭者分析、公司資本結構、財務比率、合併與購併、R&D、資本及存貨投資、股市報酬、及資本市場效率等主題。

5、CRSP資料庫

△ 网址:https://wrds-www.wharton.upenn.edu/

WRDS(全稱:Wharton Research Data Services)是由賓夕法尼亞大學沃頓商學院於1993年開發的金融領域的跨庫研究工具,被學術界、政府機構、非營利性組織以及公司的使用者廣泛使用。

該平臺可以整合Compustat(標準普爾)、CRSP(芝加哥大學)、TFN(THOMSON)、TAQ(紐約交易所)等多個著名資料庫產品,同時還提供包括CBOE在內的十個公開資料庫。該平臺可使資料庫檢索更便利,並提供驗證資料正確性以及資料庫的整合等功能。

6、World Bank Open Data (世界銀行)

△ 网址:data.worldbank.org/data-catalog/

這個網站的知名度可能會高一點,目前包含了 238 個全球發展資源資料集,都是來自世界銀行成員國的統計系統,資料更新的頻率也挺高。

世界銀行公開資料收錄了世界銀行資料庫的七千多個指標,可以按國家、指標、專題和資料目錄瀏覽資料。

7、OECD:世界經濟貿易合作組織資料庫:https://data.oecd.org/

可以按照國家和主題來搜索,比如一個國家的人口、稅收、進出口等經濟資料,全球經濟狀況等等。如果你需要一次性對比幾個國家的資料,在OECD上獲取比一個一個國家開放資料平台搜尋要方便許多。

8、世界衛生組織

http://apps.who.int/gho/data/node.home

健康醫療等資料都可以在這裡獲取。近幾年智慧醫療興起,關於免疫、疾病預治、藥物、營養等方面的資料分析越來越多,WHO提供了非常多類別的最新資料。

還有諸如世界婦女兒童基金會、美國宇航局等等組織都有提供資料,可以根據需要獲取。

四、資料集導航合集

01Google Dataset Search

地址:https://toolbox.google.com/datasetsearch

它可以讓你搜索到已經根據 http://schema.org 標準進行正確標記的可用資料集。雖然這可以被視為一站式資料集商店,包括像來自 NASA 和 ProPublica 等來源的資料,但對於一些特定目標來說,其它資料集可能更好用。

你可以看到所有搜尋結果,每個結果包括:資料集名稱、最近更新時間、資料集簡介

其中一些結果可以讓你獲得更多資訊,例如資料集中可用的格式。

02Google Trends

地址:https://trends.google.com/trends/explore

使用此工具,你可以搜尋關鍵字並檢視有關它們的各種資訊,包括:

你可以選擇不同的選項,包括要檢視的國家(或全球),將其縮小到各個類別,或將搜尋範圍限制在所有網站、圖片、新聞、購物或 YouTube 上。

你還可以將搜尋結果與另一主題進行對比。

03、Hadoopilluminated.Com

提供國外開放資料網站相關資訊,目前已集合35個查詢途徑

五、其他公开资源

1、UCI機器學習資料庫:https://archive.ics.uci.edu/ml/datasets.html

UCI機器學習庫是機器學習社區用於機器學習算法的經驗分析的數據庫,領域理論和數據生成器的集合。被全世界的學生,教育工作者和研究人員廣泛用作機器學習數據集的主要來源。

2研究論文學習網站:Figshare.Com

https://figshare.com/

研究論文上傳網站,已有2600萬+瀏覽量、750萬+下載、800,000+上傳、200萬+文章

3、社會學研究數據

Pew Internet

需要註冊,和下載資料集,但是免費。如果你需要的是社會學資料,這是一個很好的資料來源。你還可以通過瀏覽找到一些有趣的文章。

4、新聞工作室: ProPublica’s Data Store

△ 网址:www.propublica.org/datastore/

ProPublica 是一個獨立的非盈利新聞工作室。

他們提供了許多免費的資料集,比如特朗普政府的財務披露、Facebook上顯示的廣告類型資訊等等…

5、全球最大的開放資料庫 Open Corporates

△ 网址:opencorporates.com

號稱“全球最大的開放資料庫”,裡面包含了 1.38 億家企業和 1.76 億員工的資訊,而且還在不斷更新。

6、政府財務:OpenSpending

△ 网址:openspending.org

使用簡單且免費,目前可以搜尋到 78 個國家 5900 萬份政府財政記錄。

7. 政府公開資料 Global Open Data Index

△ 网址:index.okfn.org/dataset/

這裡集合了各國的政府公開資料,比如政府預算、國家法律、空氣質量、水質等等,不過目測不含中國大陸。

8.政界商界領袖: LittleSis

△ 网址:littlesis.org

這裡可以找到許多關於商界領袖、政治家、金融家及其附屬機構資訊的資料,資料可以免費下載。

9.國際援助: IATI registry

△ 网址:www.iatiregistry.org/

IATI 是一個致力於國際援助款透明化與開放化的研究機構網站,目前有 5760 個數據集。如果你想了解國際援助方面的資料,這個網站會幫你很大忙。

10. NRGI ResourceData 自然資源治理

△ 网址:www.resourcedata.org/dataset

自然資源治理研究所(NRGI)的網站,提供了 58 個各國能源方面的資料集。

11、MNIST手寫數字數據庫http://yann.lecun.com/exdb/mnist/

手寫數據圖像識別數據集,MNIST手寫數據庫具有60,000個示例的訓練集和10,000個示例的測試集。

12、免費圖像資源

地址:https://www.searchenginejournal.com/find-free-images-online/298887/

13、NASA 的 Earth Data

地址:https://earthdata.nasa.gov/?_fsi=BqJ6IiI5

地球觀測系統資料和資訊系統包含了美國宇航局的地球觀測資料,其中包含如 NC 地表溫度和碳通量等資訊。

14、爬蟲

還有很多資料是沒有現成的可以使用,需要用到爬蟲工具去爬取,例如網站資料的爬取。這方面的工具和方法也很多,有這種需要的可以自行學習。

關注數據君的臉書:

我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按贊我的臉書,會有豐富資料包贈送唷!

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/

這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/