如何入門數(shù)據(jù)分析?
如何入門數(shù)據(jù)分析?
如今,大多數(shù)公司都意識(shí)到數(shù)據(jù)驅(qū)動(dòng)的商業(yè)策略的價(jià)值,因此需要有數(shù)據(jù)分析才能的人來(lái)洞察不斷收集的信息。隨著我們繼續(xù)將現(xiàn)實(shí)世界數(shù)字化,對(duì)分析師的需求只會(huì)增加。 可以了解之前講解的《數(shù)據(jù)分析為什么火了》。
如果你剛開(kāi)始學(xué)習(xí)數(shù)據(jù)分析,那么怎么入門呢?其實(shí)各大招聘網(wǎng)站的數(shù)據(jù)分析職位就是一個(gè)很好的參考。那么數(shù)據(jù)分析師究竟需要哪些技能呢?
數(shù)據(jù)分析必備技能:
- Excel
- SQL
- Python或者R
- 數(shù)據(jù)可視化
- 機(jī)器學(xué)習(xí)
- PPT
- 邏輯思維
下面我們一個(gè)個(gè)看下
一、Excel
說(shuō)到Excel,首先想到的可能是電子表格,但是這個(gè)工具背后有更多的分析能力,如編寫宏和使用VBA查找,這樣的高級(jí)Excel方法在處理小數(shù)據(jù)量時(shí)更輕松、快速的分析。比如散點(diǎn)圖可以很方便的幫助我們發(fā)現(xiàn)數(shù)據(jù)分布特征,Excel甚至可以做線性回歸。因?yàn)镋xcel受數(shù)據(jù)量的影響,所以學(xué)習(xí)一門數(shù)據(jù)處理語(yǔ)言是非常有必要的。
二、SQL
SQL是普遍存在的行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)語(yǔ)言,是數(shù)據(jù)分析師需要掌握的最重要的技能。這種語(yǔ)言通常被認(rèn)為是Excel的“終極”版本,它能夠處理Excel無(wú)法處理的大型數(shù)據(jù)集。
幾乎每個(gè)數(shù)據(jù)分析組織都至少需要一個(gè)了解sql的人,更需要一個(gè)數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)。以前很多行業(yè)的業(yè)務(wù)邏輯全寫在數(shù)據(jù)庫(kù)存儲(chǔ)過(guò)程中,那時(shí)候,只會(huì)寫SQL就可以拿高薪?,F(xiàn)在很多大數(shù)據(jù)計(jì)算引擎也都支持了SQL操作,所以你想使用大數(shù)據(jù),那么學(xué)習(xí)SQL是第一步。
三、Python或者R
任何Excel能做的事情,R或Python都能做得更好,甚至要快10倍。和SQL一樣,R和Python可以處理Excel不能處理大數(shù)據(jù)量的事情。它們是強(qiáng)大的統(tǒng)計(jì)編程語(yǔ)言,用于對(duì)大數(shù)據(jù)集執(zhí)行高級(jí)分析和預(yù)測(cè)分析。要成為一名真正的數(shù)據(jù)分析師,您需要超越SQL并至少掌握其中一種語(yǔ)言。
那么你應(yīng)該學(xué)習(xí)哪一個(gè)呢?R和Python都是開(kāi)源和免費(fèi)的,公司招聘一般也是寫明,會(huì)其中一個(gè)就可以。但是,由于Python現(xiàn)在有很多工具包,而且機(jī)器學(xué)習(xí)和深度學(xué)習(xí)也都和Python聯(lián)系緊密,所以推薦大家優(yōu)先學(xué)習(xí)Python。
四、數(shù)據(jù)可視化
為什么要掌握可視化,舉個(gè)例子。
你在買水果的時(shí)候肯定關(guān)系水果是不是壞的,你一看就知道,數(shù)據(jù)也一樣,你可以通過(guò)可視化很快的發(fā)現(xiàn)異常數(shù)據(jù)、臟數(shù)據(jù)。
同樣,廚師們除了要保證菜好吃,還要把菜做的好看,這樣客人們才會(huì)更加滿意,原因買單。數(shù)據(jù)分析的內(nèi)容再好,最后都要可視化出來(lái),讓老板能看懂,這樣才能升值加薪??!
可見(jiàn),可視化能夠用數(shù)據(jù)講述一個(gè)引人注目的故事,讓你的觀點(diǎn)更易被人理解。分析師使用吸引眼球的、高質(zhì)量的圖表和圖形,以清晰簡(jiǎn)潔的方式展示分析的發(fā)現(xiàn)。所以,去學(xué)習(xí)Python的Matplotlib和Seaborn吧,可以參考之前的文章講解《數(shù)據(jù)挖掘從入門到放棄(五)seaborn 的數(shù)據(jù)可視化》。
五、機(jī)器學(xué)習(xí)
現(xiàn)在AI和預(yù)測(cè)分析是數(shù)據(jù)科學(xué)領(lǐng)域最熱門的兩個(gè)主題,數(shù)據(jù)分析師不只是單單對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì)操作了,對(duì)機(jī)器學(xué)習(xí)的理解已被確定為分析師的工作之一。雖然并不是每個(gè)分析師都使用機(jī)器學(xué)習(xí),但是為了在這個(gè)領(lǐng)域要走的更遠(yuǎn),學(xué)習(xí)機(jī)器學(xué)習(xí)是很重要的。然而機(jī)器學(xué)習(xí)需要一定的統(tǒng)計(jì)學(xué)知識(shí),需要理解算法的原理,然后才能更好的使用??梢詤⒖嘉恼陆Y(jié)尾的歷史文章精選。
六、PPT
數(shù)據(jù)可視化和PPT是相輔相成的。但是我們每個(gè)人基本都是程序員出身,不屑于寫PPT。但是你不能拿著代碼給老板匯報(bào)吧。PPT可以很好幫助你表達(dá)清楚自己的分析思路和分析結(jié)論,也幫讓老板理解。但是PPT并不是直接把word粘貼過(guò)來(lái),PPT最主要的是圖,字不用太多,因?yàn)镻PT是用來(lái)講解的,不是需求文檔!
關(guān)于PPT,還是要多謝,寫的多了,被老板批評(píng)的多了,自然就會(huì)了……
七、邏輯思維能力
使用數(shù)據(jù)來(lái)找到問(wèn)題的答案,意味著首先你要弄清楚要什么,也就是用戶故事要想好。數(shù)據(jù)分析師的角色是發(fā)現(xiàn)并關(guān)聯(lián)那些并不總是很清晰的聯(lián)系。這個(gè)比以上6條都難,我遇到過(guò)有些分析師用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)跑出一些結(jié)果,最后告訴老板,結(jié)果是模型學(xué)習(xí)的,是不可解釋的。我承認(rèn),比如神經(jīng)網(wǎng)絡(luò)跑出來(lái)的結(jié)果,很難解釋。但是我們是數(shù)據(jù)分析師,不是算法工程師,我們首先要考慮的就是分析結(jié)果和我們之前的用戶故事有什么聯(lián)系,我們要找到這部分聯(lián)系,解釋給老板。那么如何來(lái)培養(yǎng)這種能力呢?比如問(wèn)自己最初的用戶故事是什么,怎么來(lái)的,聯(lián)系當(dāng)前的業(yè)務(wù)知識(shí),看看結(jié)果和分析需求的哪個(gè)節(jié)點(diǎn)能聯(lián)系起來(lái),是否能夠使用起初的用戶故事。經(jīng)常這樣思考,可以幫助你在尋找解決方案時(shí)保持清醒,而不是被一個(gè)很難解釋搞蒙。
結(jié)尾
如果你想進(jìn)入數(shù)據(jù)分析這個(gè)行業(yè),那么就從上述7個(gè)技能開(kāi)始吧。
關(guān)注公眾號(hào):數(shù)據(jù)社,回復(fù)【數(shù)據(jù)分析】,獲取相關(guān)學(xué)習(xí)資料。