作業(yè)幫+閱文筆試~數(shù)倉/數(shù)據(jù)開發(fā)
#數(shù)據(jù)人的面試交流地##實習進度記錄##數(shù)據(jù)人的面試交流地#作業(yè)幫時間是隨機的,今天下午測的。作業(yè)幫是10道選擇題加2到算法題:
選擇題:考了數(shù)據(jù)結(jié)構(gòu)排序二叉樹,linux命令:awk '$NF' test 這里的test是一個有多行數(shù)據(jù)的文件,這命令是輸出該文件末行的內(nèi)容。還考了mapreduce優(yōu)化數(shù)據(jù)傾斜的辦法
這里我好像選錯了有兩個選項一個是把count(distinct ) 替換為sum()group by 還有是將小文件先保存到內(nèi)存中這兩個好像是對的都可以優(yōu)化數(shù)據(jù)傾斜此問題。還考了Flink的一些特性不過我還沒學過flink,還考了kafka的高性能和低性能的一些問題,這我也是一臉懵
。還考了六個盤的漢洛塔要移動幾次才通過。然后是算法題,第一個是簡單的二分查找,不過我只通過了94%,后面看估計是我對左右指針移動還是有點問題。第二個是leetcode32題,最長有效括號,可惜了我兩個月前還寫過但是還是沒寫對,只通過了63%。也不知道能不能過。
閱文(寄了,以為是8.30考沒想到是8.30結(jié)束結(jié)果只寫了20分鐘):
這好像是前面是單選題,中間是不定項,后面是問答題
單選題:考了hive內(nèi)置函數(shù),考了hive與spark的對比,hadoop節(jié)點默認備份是多少~(還考了斗破蒼穹的主角是誰
雖然我沒看過印像中好像叫蕭炎)
不定項:有mysql中delete,drop和truncate這三者的區(qū)別特點(我對truncate完全沒印象
),還考了flink的一些知識。
問答題:第一個是mapredce工作流程這個還好,第二個是如何解決spark數(shù)據(jù)傾斜的方法。這里時間不夠了我一點沒寫,也沒多少印象。這里我現(xiàn)在寫一下加深點印象
1.可以增加隨機前綴或后綴:來打散數(shù)據(jù)分布,在后繼計算中去除前后綴從而負載均衡
2.廣播小表,如果是原因是小表與大表join可以將小表廣播到每個節(jié)點,避免產(chǎn)生數(shù)據(jù)傾斜。
3.salting方法:為傾斜數(shù)據(jù)填加鹽值,打散傾斜數(shù)據(jù)
4.分區(qū)策略調(diào)整:通過自定義分區(qū)器或者合理選擇內(nèi)置分區(qū)器來均勻分布數(shù)據(jù)
5.增大并行度:針對只有少量數(shù)據(jù)造成的傾斜任務,增加并行度可以更快地處理這些小任務
6.數(shù)據(jù)預處理:合并一些小文件,fliter操作等
第三四個就是寫sql語句,第三個挺簡單的就是第四題來不及看了。ok就是這些了,預祝大家都能找到自己想要的工作實現(xiàn),我還是繼續(xù)去沉淀去了,這一個月也不知道自己在忙些啥好像就是一直在刷算法題和sql題,八股都沒怎么看,對組件的掌握還是太淺了。
#實習##數(shù)據(jù)開發(fā)工程師實習##暑期實習加油##牛客AI配圖神器#
選擇題:考了數(shù)據(jù)結(jié)構(gòu)排序二叉樹,linux命令:awk '$NF' test 這里的test是一個有多行數(shù)據(jù)的文件,這命令是輸出該文件末行的內(nèi)容。還考了mapreduce優(yōu)化數(shù)據(jù)傾斜的辦法
閱文(寄了,以為是8.30考沒想到是8.30結(jié)束結(jié)果只寫了20分鐘):
這好像是前面是單選題,中間是不定項,后面是問答題
單選題:考了hive內(nèi)置函數(shù),考了hive與spark的對比,hadoop節(jié)點默認備份是多少~(還考了斗破蒼穹的主角是誰
不定項:有mysql中delete,drop和truncate這三者的區(qū)別特點(我對truncate完全沒印象
問答題:第一個是mapredce工作流程這個還好,第二個是如何解決spark數(shù)據(jù)傾斜的方法。這里時間不夠了我一點沒寫,也沒多少印象。這里我現(xiàn)在寫一下加深點印象
1.可以增加隨機前綴或后綴:來打散數(shù)據(jù)分布,在后繼計算中去除前后綴從而負載均衡
2.廣播小表,如果是原因是小表與大表join可以將小表廣播到每個節(jié)點,避免產(chǎn)生數(shù)據(jù)傾斜。
3.salting方法:為傾斜數(shù)據(jù)填加鹽值,打散傾斜數(shù)據(jù)
4.分區(qū)策略調(diào)整:通過自定義分區(qū)器或者合理選擇內(nèi)置分區(qū)器來均勻分布數(shù)據(jù)
5.增大并行度:針對只有少量數(shù)據(jù)造成的傾斜任務,增加并行度可以更快地處理這些小任務
6.數(shù)據(jù)預處理:合并一些小文件,fliter操作等
第三四個就是寫sql語句,第三個挺簡單的就是第四題來不及看了。ok就是這些了,預祝大家都能找到自己想要的工作實現(xiàn),我還是繼續(xù)去沉淀去了,這一個月也不知道自己在忙些啥好像就是一直在刷算法題和sql題,八股都沒怎么看,對組件的掌握還是太淺了。
全部評論
相關(guān)推薦
04-25 22:24
武漢理工大學 大數(shù)據(jù)開發(fā)工程師 
點贊 評論 收藏
分享