為什麼我們仍在使用 SQL?
SQL 和關係資料庫管理系統(RDBMS)都是在 上世紀70 年代早期開發的。Edgar F. Codd 開發了 RDBMS,而 Donald D. Chamberling 和 Raymond F. Boyce 開發了 SQL。
二者都誕生在計算機技術的早期,而且在 90% 的時間裡都非常有效,使得資料庫成為了一項 “已經被解決的問題”。就像 MailChimp 已經成為了傳送新聞簡訊的同義詞。如果你想使用資料庫,你就得使用 RDBMS 和 SQL。
不過,仍然還是有人使用其他 Email 軟體,正如還是用人使用非 SQL 的資料庫。但即使是存在著其他可供使用的資料庫技術,SQL 依舊佔據霸主地位。
以下 8 條,就是我們在 SQL 誕生 48 年後依舊使用它的原因。
SQL 最初基於關係代數和元組關係演算 — — 由 Codd 特別為關係資料庫開發的兩種數學模式 …
標題其實是最近某個朋友後台發我的一個問題,對此我的答案是:
沒有。沒錯,就是沒有。
怎麼可能替代Excel?做資料分析經常要和資料打交道,至今為止,我沒有遇到過能超越Excel的軟體,你做個表格還能更方便嗎?不能。
但是!總會有個但是,Excel的資料處理能力,一直是被我的同事和下屬們詬病的,能想象嗎?10萬行以上的資料卡死是常事,也不是沒有解決方法,就是覺得這麼下去不是個事。
在與Excel打交道的過程中漸漸發現了很多無能為力的地方,首先是需要解決資料時效性的問題,資料是流動的,每天都會有很多新的資料產生,通過Excel去更新統計和檢視,無疑時效性特別差。
更新起來麻煩不說,還容易出錯,其次資料展現方式比較單一,難以聚焦。
這都是讓從業者痛苦的地方,我相信不止一個資料分析師有這樣的想法。
表格這塊,沒有軟體有戲,但是在資料處理和資料展示方面,這2個軟體首當其衝。
先來說第一個:
這個軟體是報表工具,Excel的大部分作用都被拿去做報表了,所以個人認為FineReport可以很好地取代Excel。
針對IT和技術偏多,管理層和業務層提出需求,然後去檢視資料。
推薦他是因為有兩個高效率的點:
①可以完成從資料庫取數(有整合資料功能) — 設計報表模板 — 資料展示的過程,不用像Excel一樣不停地核對和記錄資料
②類似Excel做報表,一張模板配合引數查詢可以代替幾十張報表,很省事
用SQL從資料庫裡取好資料之後,直接拖拽就可以了。
資料處理方面,經常會用到以前的資料集,那這種情況下怎麼辦?直接開啟FineReport中以前的資料取數SQL,複製貼上,比再寫一遍簡單很多。
而且你看,圖表的種類和型別也有很多,這是我比較看重的一點,Excel的圖表太落後了,在做出視覺化的同時,也能做出視覺化大屏,一舉兩得!
来源:CSDN
本篇是機器學習面試200題第六篇,由於篇幅太長,本篇介紹101–120題~
感興趣的話請持續關注唷XD
系列篇1指路
系列篇2指路
系列篇3指路
系列篇4指路
系列篇5指路
101.隨機森林如何處理缺失值。
方法一(na.roughfix)
簡單粗暴,對於訓練集,同一個class下的資料,如果是分類變數缺失,用眾數補上,如果是連續型變數缺失,用中位數補。
方法二(rfImpute)
這個方法計算量大,至於比方法一好壞?不好判斷。先用na.roughfix補上缺失值,然後構建森林並計算proximity matrix,再回頭看缺失值,如果是分類變數,則用沒有陣進行加權平均的方法補缺失值。然後迭代4–6次,這個補缺失值的思想和KNN有些類似1缺失的觀測例項的proximity中的權 …
原文:@QbitAI
年僅27歲的他,被彭博評價為“新冠病毒資料超級明星”。
為什麼?
憑一己之力,僅用一週時間打造的新冠預測模型,準確度方面碾壓那些數十億美元、數十年經驗加持的專業機構。
他就是Youyang Gu,擁有 MIT 電氣工程和電腦科學碩士學位,以及數學學位。
但值得注意的是,他在醫學和流行病學等方面卻是一個小白。
他的模型,甚至被著名資料科學家、fast.ai創始人Jeremy Howard高度評價道:
唯一看起來合理的模型。他是唯一一個真正檢視資料,並且做得正確的人。
不僅如此,他的模型還被美國疾控中心採用。
時間點要追溯到去年年初。
當時疫情已然在全球蔓延開來,於是公眾試圖用建模的方式,來預測接下來疫情會帶來的影響。
大多數的目光都將希望投向了2家專業機構打造的預測系統 — — 倫敦帝國理工學院、總部位於西雅圖的健康指標與評估研究所(IHME)。
但2家機構給出的預測結果卻是天差地別:
倫敦帝國理工學院:到夏天,美國因新冠病毒而死亡的人數將達到200萬。
IHME:預計到8月,死亡人數將達到6萬。
(後來的事實證明,死亡人數是16萬。)
2家專業機構給出的預測資料,差距為何能夠如此之大?
這就讓當時年僅26歲的Youyang Gu引起了注意。
資料分析工具這麼多,應該用哪個來做分析?
這是很多人在做資料分析的時候,經常會碰到一個問題。尤其是新人剛入門的時候,看到下面的資料分析工具,例如
Excel、SQL、SPSS、Python、Tableau、PowerBI、FineReport、R、Hadoop、Spark……
可能頭都大了,如果全都要學那可不是短期內能學完的。
在資料分析工具的選擇上,我的建議是對症下藥,因地制宜。我會從幾個角度對各種工具進行分析,希望能給剛入門資料分析的朋友一點幫助。
其實看上圖就已經非常清晰了。每個資料分析工具都有其側重的功能點,在不同的資料應用場景下,選擇合適的工具,能實現效率最大化。
比如在資料獲取時,你可以通過SQL從資料庫中提取資料,也可以通過python爬取資料,但你最起碼要能熟練掌握SQL;
資料處理時,如果資料量不大,其實Excel是最方便快捷的資料處理工具,在大資料量的情況下,SQL和python的使用更為常見;在大量不可變資料的批處理作業中,hive則最為合適;
分析建模方面,簡單的分析,Excel、BI工具已經足夠,涉及到建模時,R、SPSS這類專業的統計分析軟體,就更能發揮出優勢,畢竟建模的思維和統計學是強相關的,當然,python也是一個不錯的選擇;
在做視覺化時,還是建議各位用專業的視覺化工具去做,視覺化工具的細分上也有很多,像普通的業務資料分析師和業務人員可以使用常見的BI工具Tableau、PowerBI、FineBI等去做,報表工程師更適合選擇專業的報表工具例如FineReport,開發人員還可以選擇一些開源的視覺化工具例如Echart
在很多人眼裡,Excel只是一個辦公軟體,但實際上,大部分人對Excel的認知還不到50%。Excel可以稱得上是最全能的資料分析工具之一,包括表格製作、資料透視表、VBA等等功能,保證人們能夠按照需求進行分析。
當然也有人認為自己非常精通程式語言,不屑使用Excel這種工具,因為Excel不能應對大量資料。但換個思維想想,我們在日常中用到的資料是否超過了大資料這個極限呢?而且我們國家中小微型企業佔了大部分,Excel足夠處理絕大多數的資料分析需求。
總結一下,百萬級以下的資料處理、分析,Excel是個不錯的選擇,新人要是想學資料分析,Excel絕對是首選,而且是必選!
不可否認的是,python在資料分析領域,確實稱得上是一個強大的語言工具。你可以隨心所欲地寫程式碼執行你想要的東西。儘管入門的學習難度要高於Excel和BI,但是作為資料科學家的必備工具,從職業高度上講,它肯定是高於Excel、BI工具的。
尤其是在統計分析和預測分析等方面,Python等程式語言更有著其他工具無可比擬的優勢。
新人在初入門時可以先不學Python,很多初級崗位甚至用不上Python,但如果想在這條路上長遠發展,它一定是個逃不開的工具。
BI也就是商業智慧,這類工具就是為資料分析而生的。你會發現BI工具的產品設計,幾乎是按照資料分析的流程來設計的。先是資料處理、整理清洗,再到資料建模,最後資料視覺化,全程圍繞資料指導運營決策的思想。由於功能聚焦,產品操作起來也非常簡潔,依靠拖拉拽就能完成大部分的需求,沒有程式設計基礎的業務人員也能很快上手。
以FineBI為例
可以通過匯入資料集或者連線資料庫,獲取資料
在IT部門工作的小夥伴可能對此深有體會,一到年底年初就要做各種各樣的資料報表、資料報告,且不說從各個業務系統里拉通資料有多費事,光是和業務部門的同事溝通就要花費很長時間,尤其是面對業務變化非常快的部門,一張報表做三天都是常事。
Excel應該是最常用的報表工具了,但是在實際工作過程中,由於IT規劃和業務流程的緣故,很多IT人、資料人開發報表都不一定通過Excel來實現,相反用郵件傳送抄送密送Excel報表是一個很落後的方式。
不信你就看看Excel做出來的報表有多難看,想一想就知道老闆肯定不喜歡!
像我之前在某家大型企業(就不透露啦XDD),即便買了上千萬的SAP業務系統,最後還都是Excel滿天飛,報表的數量一翻再翻,但是一大半報表實際上卻完全沒人用,究其原因,不是這裡資料不對,就是那裡資料口徑錯誤。
無奈之下,我們只能教業務人員使用SQL和資料庫,然而因為學習難度和門檻問題,結果簡單的報表需求依舊交給IT,反倒是需求提得更嚴苛了,真是有苦無處說。
来源:CSDN
本篇是機器學習面試200題第四篇,由於篇幅太長,本篇介紹81–100題~
本文前十題為選擇題,食用愉快唷XDD
感興趣的話請持續關注唷XD
系列篇1指路
系列篇2指路
系列篇3指路
系列篇4指路
81.影響聚類演算法結果的主要因素有(BCD )
A.已知類別的樣本質量;
B.分類準則;
C.特徵選取;
D.模式相似性測度
82.模式識別中,馬式距離較之於歐式距離的優點是(CD)
A. 平移不變性;
B. 旋轉不變性;
C. 尺度不變性;
D. 考慮了模式的分佈
83.影響基本K-均值演算法的主要因素有(ABD)
A. 樣本輸入順序;
B. 模式相似性測度;
C. 聚類準則;
D. 初始類中心的選取
84.在統計模式分類問題中,當先驗概率未知時,可以使用(BD)
A. 最小損失準則;
B. 最小最大損失準則;
C. 最小誤判概率準則;
D. N-P判決
85.如果以特徵向量的相關係數作為模式相似性測度,則影響聚類演算法結果的主要因素有(BC)
A. 已知類別樣本質量;
B. 分類準則;
C. 特徵選取;
D. 量綱
86.歐式距離具有(AB );馬式距離具有(ABCD )。
A. 平移不變性;
B. 旋轉不變性;
C. 尺度縮放不變性;
D. 不受量綱影響的特性
87.你有哪些Deep Learning(RNN,CNN)調參的經驗?
答案解析,來自知乎
https://www.zhihu.com/question/41631631
88.簡單說說RNN的原理。
我們升學到高三準備高考時,此時的知識是由高二及高二之前所學的知識加上高三所學的知識合成得來,即我們的知識是由前序鋪墊,是有記憶的,好比當電影字幕上出現:“我是”時,你會很自然的聯想到:“我是男生/女生”。
89.什麼是RNN?
@一隻鳥的天空,本題解析來源:
迴圈神經網路(RNN, Recurrent Neural Networks)介紹
http://blog.csdn.net/heyongluoyao8/article/details/48636251
90.RNN是怎麼從單層網路一步一步構造的的?
@何之源,本題解析來源:
完全圖解RNN、RNN變體、Seq2Seq、Attention機制
https://zhuanlan.zhihu.com/p/28054589
91.深度學習(CNN RNN Attention)解決大規模文字分類問題。
用深度學習(CNN RNN Attention)解決大規模文字分類問題 — 綜述和實踐
https://zhuanlan.zhihu.com/p/25928551
92.如何解決RNN梯度爆炸和彌散的問題的?
深度學習與自然語言處理(7)_斯坦福cs224d 語言模型,RNN,LSTM與GRU
http://blog.csdn.net/han_xiaoyang/article/details/51932536
93.如何提高深度學習的效能?
機器學習系列(10)_如何提高深度學習(和機器學習)的效能
http://blog.csdn.net/han_xiaoyang/article/details/52654879
94.RNN、LSTM、GRU區別?
@我愛大泡泡,本題解析來源:
面試筆試整理3:深度學習機器學習面試問題準備(必會)
http://blog.csdn.net/woaidapaopao/article/details/77806273
95.當機器學習效能遭遇瓶頸時,你會如何優化的?
可以從這4個方面進行嘗試:基於資料、藉助演算法、用演算法調參、藉助模型融合。當然能談多細多深入就看你的經驗心得了。
這裡有一份參考清單:機器學習系列(20)_機器學習效能改善備忘單
http://blog.csdn.net/han_xiaoyang/article/details/53453145
96.做過什麼樣的機器學習專案?比如如何從零構建一個推薦系統?
推薦系統的公開課 http://www.julyedu.com/video/play/18/148,另,再推薦一個課程:機器學習專案班 [10次純專案講解,100%純實戰](https://www.julyedu.com/course/getDetail/48)。
97.什麼樣的資料集不適合用深度學習?
@抽象猴,來源:
知乎解答
https://www.zhihu.com/question/41233373
98.廣義線性模型是怎被應用在深度學習中?
@許韓,來源:
99.準備機器學習面試應該瞭解哪些理論知識?
知乎解答
https://www.zhihu.com/question/62482926
100.標準化與歸一化的區別?
簡單來說,標準化是依照特徵矩陣的列處理資料,其通過求z-score的方法,將樣本的特徵值轉換到同一量綱下。歸一化是依照特徵矩陣的行處理資料,其目的在於樣本向量在點乘運算或其他核函式計算相似性時,擁有統一的標準,也就是說都轉化為“單位向量”。規則為L2的歸一化公式如下:
特徵向量的缺失值處理:
1.缺失值較多.直接將該特徵捨棄掉,否則可能反倒會帶入較大的noise,對結果造成不良影響。
2.缺失值較少,其餘的特徵缺失值都在10%以內,我們可以採取很多的方式來處理:
1) 把NaN直接作為一個特徵,假設用0表示;
2) 用均值填充;
3) 用隨機森林等演算法預測填充
我是「數據分析那些事」。常年分享數據分析乾貨,不定期分享好用的職場技能工具。按讚我的臉書並私訊「10」,送你十週入門數據分析電子書唷!
来源:CSDN
本篇是機器學習面試200題第四篇,由於篇幅太長,本篇介紹61–80題~
感興趣的話請持續關注唷XD
系列篇1指路
系列篇2指路
系列篇3指路
61.Python是如何進行記憶體管理的?
2017 Python最新面試題及答案16道題
http://www.cnblogs.com/tom-gao/p/6645859.html
62.請寫出一段Python程式碼實現刪除一個list裡面的重複元素。
1、使用set函式,set(list);
2、使用字典函式:
1 a=[1,2,4,2,4,5,6,5,7,8,9,0]
2 b={}
3 b=b.fromkeys(a)
4 c=list(b.keys())
5 c
63.程式設計用sort進行排序,然後從最後一個元素開始判斷。
1 a=[1 …
這是一個專注於數據分析職場的內容部落格,聚焦一批數據分析愛好者,在這裡,我會分享數據分析相關知識點推送、(工具/書籍)等推薦、職場心得、熱點資訊剖析以及資源大盤點,希望同樣熱愛數據的我們一同進步! 臉書會有更多互動喔:https://www.facebook.com/shujvfenxi/