此文是《10周入門資料分析》系列的第13篇
想瞭解學習路線,可以先閱讀 學習計畫 | 10周入門資料分析
前面經過十幾篇文章,相想必大家對於資料分析是什麼,怎麼做有了基本的認識。跟著操作的小夥伴基本功應該練的差不多了,可以蛟龍出海了。
有些基礎后,理論上的東西我們先放一放,現在開始我們就學習一下很熱門,很燙手的python》》入門版六小節,好了,跟著小編學起來吧!
作為當下最熱門的程式設計語言之一,Python有兩個非常有趣的方向:一個是資料分析,從掌握資料分析的基本方法開始,學習NumPy、Pandas、mapplotlib包;然後再往下就是資料採擷,機器學習、深度學習,甚至人工智慧。另外一個方向則是web開發。有同學說爬蟲呢,爬蟲其實是獲取資料的一個手段,包括資料庫的處理等等都是包含在上面兩條路線裡面。
想學會一門語言不是一朝一夕的事情,本文是按照業務資料分析師/商業分析師的路線來講Python的學習路徑。若大家想成為技術型的分析師,或者未來往資料採擷發展,建議你要比文章內容學得更深,所有的程式碼最好都手打一遍,這是最有效的學習方式。
好了,言歸正傳。按照所有程式設計語言的學習套路,先從基礎語法開始,有程式設計基礎的同好可能學習起來比較輕鬆,但也建議看一遍,溫習一二。
資料分析環境
Python的編寫環境,用Anaconda足矣。Anaconda是專業的資料科學計算環境,已經集成絕大部分包和工具,不需要多餘的安裝和調試。
Python版本建議3.0以上,不要選擇2.7的版本,否則你會被無盡的中文編碼問題困擾。
Anaconda在官網下載,選擇最新版本,約400MB。
完成安裝後,Win版本會多出幾個程式,Mac版本只有一個Navigator導航。資料分析最常用的程式叫Jupyter,以前被稱為IPython Notebook,是一個互動式的筆記本,能快速創建程式,支援即時程式碼、視覺化和Markdown語言。
點擊Jupyter進入,它會自動創建一個本地環境localhost。
點擊介面右上角的new,創建一個python檔。
開始你的Python
介面上部是工具列,編輯撤回運行等,下面是快捷操作,大家以後會熟悉的。頁面正中便是腳本執行的地方,我們輸入自己第一行程式碼吧:
(我就不用hello world)灰色框是輸入程式的地方,回車是換行,shift+回車執行灰色區域的程式碼,它的結果會直接在下面空白處出現。這就是Jupyter互動式的強大地方,將Python腳本分成片段式運行,尤其適合資料分析的摸索調整工作。
這裡的print叫函數,和excel的函數同理,是程式執行的主體,負責將輸入轉化成輸出(函數留在下一篇細講)。這裡將hello qinlu這段文字輸出。新手可能會奇怪為什麼要加引號,這種用引號括起來的文字在程式中叫字串。
Python是一門電腦語言,它的邏輯和自然語言不一樣,程式設計語言的目的是執行任務,所以它不能有歧義。為了規避各種歧義,人們創造了語法規則,只有正確的語法,才能被轉換成CPU執行的機器碼。
先瞭解Python語法中的資料類型。電腦最開始只被用於數值運算,後來被賦予了各種豐富的資料類型。
上面兩個是小學生都會的四則運算,在電腦語言中可沒有那麼簡單。它涉及了兩個數值類型,整數int和浮點數float。整數和浮點數在電腦內部存儲的方式是不同的,我們不用知道具體原理,明確一點,整數運算是永遠精確的,浮點運算則可能有誤差。
兩種資料類型也可以互換,透過int函數和float函數。
有了數值,必然有文本,程式中叫字串,用英文引號括起來表示。單引號和雙引號沒有區別,所以”qinlu”和’qinlu’是等價的,引號是邊界,輸出的時候不會包含它。當字串內本身包含引號時,也不影響使用。
需要注意的是,不論單引號還是雙引號,一旦混用很容易出現錯誤。因為程式並不知道它是字串的邊界還是符號。
解決方法有兩種,一種是使用三引號,三引號代表整體引用,而且包含換行。第二種是引號前面加\,它是轉義字元,表示這個引號就是單純的字元。
三引號也可以用來注釋,通常是大段的文字解釋,如果一句話,我們更習慣用#,#後面的內容均不會作為程式執行。
時間是特殊的數數值型別,它將結合datetime模組講解。
還有兩個常見的資料類型,布林值和空值。布林值是邏輯判斷值,只有True和False。
布林值在IF語句和資料清洗中經常使用,利用其過濾。布林值能和布林值運算,不過這裡是and、not、or作為運算子,Ttue and True = True,False and True = False,False and False = False,not True = False,True or False = True等。
空值是一個特殊的值,表示為None,None不等於0,0具有數學意義而None沒有,None更多表示該值缺失。
整數,浮點數,字串,布林值,空值就是Python常見的資料類型。Python3對中文的支持比較友好,所以大家可以用中文作為字串試一下print。
資料類型構成了變數的基礎,變數可以是任意的資料類型。想要用變數,必須先賦予變數一個值,這個過程叫賦值。
我首先給a賦予了一個整數值1,然後改變它為字串abc,變數在Python中沒有固定的數數值型別,這是Python最大的優點,所以它在資料分析中很靈活。這也是它被稱為動態語言的原因,相對應的叫靜態語言。
Python是大小寫敏感的語言,所以a和A是有區別的,這點請牢記。另外變數名盡可能使用英文,不要拼音,英文的可讀性是優於拼音的。
變數有兩種拼寫風格,一種叫駝峰,一種叫底線,以用戶ID為例。駝峰命名法為userId,以一串英文詞語user和id組成變數,第一個詞語的首字母小寫,第二個詞語開始的首字母均大寫。底線命名法為user_id,全部小寫,用_分割單詞。
一個變數的值可以被賦予另外一個變數,如果b變數之前有另外一個值,那麼會被1覆蓋。呈從上而下的執行關係。
初看a = a + 1好像有邏輯問題,其實這涉及到了程式執行的先後順序,程式是先計算a+1的值得到2,然後將其賦予(覆蓋)了a。等號右邊的計算先於左邊,這是從右到左的邏輯關係。
有變數,自然有常量,常量是固定不變的量,可是在Python中沒有真正意義的常量,一切皆可變,它更多是習慣上的叫法,即一旦賦值,就不再改變了。
Python的基礎數學運算子號有+,-,*,/,//,%。前面四個就是加減乘除,其中除法的結果一定是浮點數。後面兩個符號是除法的特殊形式,//代表除法中取整數,%代表除法中取餘數。
到這裡,新手部分已經講解完成。再來講講資料結構。
資料結構
Python一共有三大資料結構,它是Python進行資料分析的基礎,分別是tuple元組,list陣列以及dict字典。本文透過這三者的學習,打下資料分析的基礎。
陣列
陣列是一個有序的集合,他用方括號表示。
num就是一個典型的陣列。陣列不限定其中的資料類型,可以是整數也可以是字串,或者是混合型。
陣列可以直接用特定的函數,函數名和Excel相近。
sum是求和,len則是統計陣列中的元素個數。
上述列舉的函數是陣列內整體元素的應用,如果我只想針對單一的元素呢?比如查找,這裡就要用到陣列的特性,索引。索引和SQL中的索引差不多,都是用來指示資料所在位置的邏輯指標。陣列的索引便是元素所在的序列位置。
注意,索引位置是從0開始算起,這是程式設計語言的預設特色了。num[0]指數組的第一個元素,num[1]指數組的第二個元素。
我們用len()計算出了陣列元素個數是5,那麼它最後一個元素的索引是4。若是陣列內的元素特別多呢?此時查找陣列最後一位元的元素會有點麻煩。Python有一個簡易的方法,可以用負數表示,意為從最後一個數位計算索引。
這裡的num[4]等價於num[-1],num[-2]則指倒數第二個的元素。
再來一個新問題,如何一次性選擇多個元素?例如篩選出陣列前三個元素。在Python中,用:表示範圍。
num[0:3]篩選了前三個元素,方括號左邊是閉區間,右邊是開區間,所以這裡是num[0],num[1]和num[2],並不包含num[3]。這個方法叫做切片。
上述是索引的特殊用法,[0:]表示從第0個索引開始,直到最後一個元素。[:3]表示從第一個元素開始,直到第3個索引。
負數當然也有特殊用法。[-1:]表示從最後一個元素開始,因為它已經是最後一個元素了,所以只返回它本身。[:-1]表示從第一個元素開始到最後一個元素。num[-2:-1]和num[-3:-1]大同小異。
陣列的增刪查
我們已經瞭解陣列的基本概念,不過仍舊停留在查找,它不涉及資料的變化。工作中,更多需要操縱陣列,對陣列的元素進行添加,刪除,更改。
陣列透過insert函數插入,函數的第一個參數表示插入的索引位置,第二個表示插入的值。
另外一種方式是append,直接在陣列末尾添加上元素。它在之後講到反覆運算和迴圈時應用較多。
如果要刪除特定位置的元素,用pop函數。如果函數沒有選擇數值,預設刪除最後一個元素,如果有,則刪除數值對應索引的元素。
更改元素不需要用到函數,直接選取元素重新賦值即可。
到這裡,陣列增刪改查已經講完,但這只是一維陣列,一維陣列之上還有多維陣列。如果現在有一份資料是關於學生資訊,一共有三個學生,要求包含學生的姓名,年齡,和性別,應該怎麼用陣列表示呢?
有兩種思路,一種是用三個一維陣列分別表示學生的姓名,年齡和性別。
學生屬性被拆分成多個陣列,利用索引來表示其資訊,這裡的索引有些類似SQL的主鍵,透過索引查找到資訊。但是這種方法並不直觀,實際應用會比較麻煩,更好的方法是表示成多維陣列。
所謂多維陣列,是陣
列內再嵌套數組,圖中表示的是一個寬度為3,高度為3的二維陣列。此時student[0]返回的是陣列而不是單一值。這種方法將學生資訊合併在一起,比第一個案例更容易使用。
如果想選擇第一個學生的性別,應該怎麼辦呢?很簡單,後面再加一個索引即可。
現在嘗試快速創建一個多維陣列。
[0]*3將快速生成3個元素值為0的陣列,這是一種快捷操作,而[row]*4則將其擴展成二維資料,因為是4,所以是3*4的結構。
這裡有一個注意點,當我們想更改多維陣列中的某一個元素而不是陣列時,這種方式會錯誤。
按照正常的想法,martix[1][0]將會改變第二個陣列中的第一個值為1,但是結果是所有陣列的第一個值都變成1。這是因為在matrix = [row] * 4操作中,只是創建3個指向row的引用,可以簡單理解成四個陣列是一體的。一旦其中一個改變,所有的都會變。
比較穩妥的方式是直接定義多維陣列,或者用迴圈間接定義。多維陣列是一個挺重要的概念,它也能直接表示成矩陣,是後續很多演算法和分析的基礎(不過在pandas中,它是另外一種形式了)。
元組
tuple叫做元組,它和陣列非常相似,不過用圓括號表示。但是它最大的特點是不能修改。
當我們想要修改時就會報錯。
而選擇和陣列沒有差異。
元組可以作為簡化版的陣列,因為它不可更改的特性,很多時候可以作為常量使用,防止被篡改。這樣會更安全。
字典
字典dict全稱dictionary,以鍵值對key-value的形式存儲。所謂鍵值,就是將key作為索引存儲。用大括弧表示。
圖中的’qinlu’是key,18是value值。key是唯一的,value可以對應各種資料類型。key-value的原理不妨想像成查找字典,拼音是key,對應的文字是value(當然字典的拼音不唯一)。
字典和陣列的差異在於,因為字典以key的形式存儲和查找,所以它的查詢速度非常快,畢竟翻字典的時候你只要知道拼音就能快速定位了。對dict資料結構,10個key和10萬個key在查找對應的value時速度沒有太大差別。
這種查找方式的缺點是佔用記憶體大。陣列則相反,查找速度隨著元素的增加逐漸下降,這個過程想像成程式在一頁頁的翻一本沒有拼音的字典,直到找到內容。陣列的優點是佔用的記憶體空間小。
所以陣列和字典的優缺點相反,dict是空間換時間,list是時間換空間,這是程式設計中一個比較重要的概念。實際中,資料分析師的工作不太涉及工程化,選用陣列或者字典沒有太嚴苛的限制。
細心的讀者可能已經發現,字典定義時我的輸入順序是qinlu,lulu,qinqin,而列印出來是lulu,qinlu,qinqin,順序變了。這是因為定義時key的順序和放在記憶體的key順序沒有關係,key-value透過hash演算法互相確定,甚至不同Python版本的雜湊演算法也不同。這一點應用中要避免出錯。
既然字典透過key-value對匹配查找,那麼它自然不能不用陣列的數值索引,它只能透過key值。
如果key不存在,會報錯。透過in方法,可以返回True或False,避免報錯。
dict和list一樣,直接透過賦值更改value。
能不能更改key的名字?不能,key一旦確定,就無法再修改,好比字典定好後,你能修改字的拼音麼?
dict中刪除key和list一樣,透過pop函數。增加key則是直接賦予一個新的鍵值對。
dict的keys和values兩個函數直接輸出所有的key值和value值。如果要轉換成陣列,則再外面嵌套一個list函數。
items函數,將key-value對變成tuple形式,以陣列的方式輸出。
字典可以透過嵌套應用更複雜的資料格式,和NoSQL與JSON差不多。
基礎的資料類型差不多了,更多函數應用大家可以網上自行查閱文檔,這塊掌握了,在資料清洗過程中將會非常高效,尤其是讀取Excel資料時。當然不要求滾瓜爛熟,因為後面將學習更加強大的Numpy和Pandas。
我是「數據分析那些事」。常年分享資料分析乾貨,不定期分享好用的職場技能工具。
已經有2600+的同好按贊我的臉書了,你不來嗎?XD
可以給50個clap,你們也別太辛苦,49個就行^~^!感謝支持小編