欧美1区2区3区激情无套,两个女人互添下身视频在线观看,久久av无码精品人妻系列,久久精品噜噜噜成人,末发育娇小性色xxxx

莉莉絲 | ETL開發(fā)日常一面涼經(jīng)

整體面了50min,面試官很溫柔

可惜我太菜了,昨天下午面,今天早上秒掛

感覺莉莉絲這個崗偏數(shù)倉底層的一些數(shù)據(jù)開發(fā),或者說是數(shù)據(jù)模型的設(shè)計

  1. 自我介紹
  2. 拷打項目(擺了一段時間突然收到面試,沒怎么準備被狠狠拷打了)
  3. 講一講維度建模整體過程,如何設(shè)計(我答了個數(shù)倉分層,被蠢哭了,后面被提醒說了說星型模型)
  4. 維度建模理論這里的冗余是指什么,如果維度變了怎么辦(緩慢變化維)
  5. 說說做了哪些指標,做了哪些標簽
  6. DQC里面具體校驗了什么東西
  7. 如何保證數(shù)據(jù)質(zhì)量的規(guī)范
  8. 30min之后說來做兩道sql吧(口述完第一道,做完就沒時間了,場景很有意思不愧為游戲公司)
  9. sql題:現(xiàn)在有一輛小車在二維平面上,然后每一秒上報一次它的坐標(x, y),表的結(jié)構(gòu)類似(time, x, y),然后這樣一分鐘下來的話,它就會上報60個坐標,因為小車的行駛方向是任意的,所以它可能是一個折線圖,求他連續(xù)行駛的最大直線距離(不用考慮一些特殊情況,說說大概思路)
  10. 先lag或lead開窗,求相鄰兩行的斜率k:(y2-y1)/(x2-x1)
  11. 再group by k,對相同k的這幾行數(shù)據(jù)參考連續(xù)登錄思路
  12. row_number()再開窗,算出最大直線距離
  13. 面試官的另一種解法:考慮轉(zhuǎn)彎的這個關(guān)鍵點就好了。只要你斜率不一樣的話,你就相當于如果你下一條,你每個數(shù)據(jù)比一下,如果斜率相同的賦0,如果斜率不同的賦1,然后只要你每變一次,那個標記就是1。然后你用一個累計求和的開窗函數(shù),你把前面的這個標記加起來就可以了
  14. 反問
全部評論
??蛿?shù)開區(qū)已經(jīng)被占領(lǐng)了
1 回復(fù) 分享
發(fā)布于 04-10 21:13 北京
大佬好強,這個sql題好有意思啊,我有些自己的理解:給每個k分組,然后對每個組求出距離。難點在于怎么把k分組,所以可以用打斷點的方式計算(面試官的思路),拐點打斷點,后面累加就完成了分組,然后對每個分組求距離,比大小。 但是大佬你這里用排名函數(shù)的思路我覺得有點漏洞,group by之后會去重,這樣只能算出哪一組k最多,雖然這一組k最多,但是不一定這組k的距離就是最大啊。比如k1有4條,k2有5條,group by之后把k2拿了出來進行計算距離,但是如果k1這四條走的都是對角線斜邊,而k2這5條走的都是x直角邊,這個大小是不是就不好判斷了,k1的4條斜邊走的距離可能比k2的5條直角邊還長。所以是不是要對每一組都進行距離計算,而不是group by把最多那個k拿出來單獨算?
1 回復(fù) 分享
發(fā)布于 04-10 16:05 湖北
問題比較常規(guī),這個崗更偏數(shù)據(jù)中臺一些,了解了一下好像游戲業(yè)除騰訊網(wǎng)易外基本只有莉莉絲有大中臺模式,所以喜歡考察建模
1 回復(fù) 分享
發(fā)布于 04-10 12:04 廣東
3.應(yīng)該是回答維度建模吧,基于業(yè)務(wù)過程將數(shù)據(jù)組織成事實表和維度表,然后可以扯一扯怎么建模事實表,比如五要素,數(shù)據(jù)域,事實表類型,顆粒度,維度,事實這些
1 回復(fù) 分享
發(fā)布于 04-10 11:59 安徽

相關(guān)推薦

1. 基本情況方向:數(shù)據(jù)工程,時間:40分鐘結(jié)束、16:00開始,無手撕,多場景2. 自我介紹3. 一些能夠回憶起來的(或許有不正確的地方):(1)提問R:你這個項目是課程作業(yè)還是什么?R:那你說說Hive和ClickHouseR:你談到了OLAP,那和OLTP有啥區(qū)別?R:沒了?ClickHouse適合那種場景?R:可以用作實時數(shù)倉嗎?R:課程中有數(shù)據(jù)庫相關(guān)的嗎?只有數(shù)據(jù)結(jié)構(gòu)與算法?R:MySQL系統(tǒng)學(xué)習(xí)過嗎?R:數(shù)據(jù)怎么導(dǎo)入到ClickHouse的?R:直接到ClickHouse?R:數(shù)倉分層?四層講講。R:那為什么要分層呢?DWS已經(jīng)差不多了為什么還需要ADS呢?R:場景題:在你的表上新...
???61513826號:A場景題:數(shù)量統(tǒng)計不說了;退貨平均時間:先溝通清楚,月平均退貨時間算不算上不退貨的用戶,不算的話,就只計算退貨用戶;一個用戶的退貨時間減去到貨時間拿到這件商品的退貨時間,然后計算每個退貨用戶的退貨時間,AVG開窗partition by月份,計算出每個月的平均退貨時間。如果要算上不退貨的用戶,也就是讓這個用戶的退貨時間是0,然后對所有用戶計算AVG同上。 B場景題:結(jié)合下面他提示你再想想數(shù)據(jù)傾斜,其實這道題是想靠你數(shù)據(jù)傾斜怎么解決;本來是一個商品購買信息表,記錄商品信息和購買者信息,如果給購買者信息加上性別,要求算出每個商品不同性別的購買人數(shù)。百分之八十女性用戶,所以如果單純對表進行分組聚合,會產(chǎn)生數(shù)據(jù)傾斜問題,由分組聚合產(chǎn)生。五種辦法可以解決,兩種hive參數(shù),三種SQL,往SQL方向聊,以防他追問參數(shù)底層,參數(shù)這種東西最難聊了,別給自己挖坑
點贊 評論 收藏
分享
#數(shù)據(jù)人的面試交流地##實習(xí)進度記錄##數(shù)據(jù)人的面試交流地#作業(yè)幫時間是隨機的,今天下午測的。作業(yè)幫是10道選擇題加2到算法題:選擇題:考了數(shù)據(jù)結(jié)構(gòu)排序二叉樹,linux命令:awk '$NF' test 這里的test是一個有多行數(shù)據(jù)的文件,這命令是輸出該文件末行的內(nèi)容。還考了mapreduce優(yōu)化數(shù)據(jù)傾斜的辦法這里我好像選錯了有兩個選項一個是把count(distinct ) 替換為sum()group by 還有是將小文件先保存到內(nèi)存中這兩個好像是對的都可以優(yōu)化數(shù)據(jù)傾斜此問題。還考了Flink的一些特性不過我還沒學(xué)過flink,還考了kafka的高性能和低性能的一些問題,這我也是一臉懵。還考了六個盤的漢洛塔要移動幾次才通過。然后是算法題,第一個是簡單的二分查找,不過我只通過了94%,后面看估計是我對左右指針移動還是有點問題。第二個是leetcode32題,最長有效括號,可惜了我兩個月前還寫過但是還是沒寫對,只通過了63%。也不知道能不能過。閱文(寄了,以為是8.30考沒想到是8.30結(jié)束結(jié)果只寫了20分鐘):這好像是前面是單選題,中間是不定項,后面是問答題單選題:考了hive內(nèi)置函數(shù),考了hive與spark的對比,hadoop節(jié)點默認備份是多少~(還考了斗破蒼穹的主角是誰雖然我沒看過印像中好像叫蕭炎)不定項:有mysql中delete,drop和truncate這三者的區(qū)別特點(我對truncate完全沒印象),還考了flink的一些知識。問答題:第一個是mapredce工作流程這個還好,第二個是如何解決spark數(shù)據(jù)傾斜的方法。這里時間不夠了我一點沒寫,也沒多少印象。這里我現(xiàn)在寫一下加深點印象1.可以增加隨機前綴或后綴:來打散數(shù)據(jù)分布,在后繼計算中去除前后綴從而負載均衡2.廣播小表,如果是原因是小表與大表join可以將小表廣播到每個節(jié)點,避免產(chǎn)生數(shù)據(jù)傾斜。3.salting方法:為傾斜數(shù)據(jù)填加鹽值,打散傾斜數(shù)據(jù)4.分區(qū)策略調(diào)整:通過自定義分區(qū)器或者合理選擇內(nèi)置分區(qū)器來均勻分布數(shù)據(jù)5.增大并行度:針對只有少量數(shù)據(jù)造成的傾斜任務(wù),增加并行度可以更快地處理這些小任務(wù)6.數(shù)據(jù)預(yù)處理:合并一些小文件,fliter操作等第三四個就是寫sql語句,第三個挺簡單的就是第四題來不及看了。ok就是這些了,預(yù)祝大家都能找到自己想要的工作實現(xiàn),我還是繼續(xù)去沉淀去了,這一個月也不知道自己在忙些啥好像就是一直在刷算法題和sql題,八股都沒怎么看,對組件的掌握還是太淺了。#實習(xí)##數(shù)據(jù)開發(fā)工程師實習(xí)##暑期實習(xí)加油##牛客AI配圖神器#
查看14道真題和解析 投遞閱文集團等公司6個崗位 數(shù)據(jù)人的面試交流地
點贊 評論 收藏
分享
評論
2
7
分享

創(chuàng)作者周榜

更多
??途W(wǎng)
牛客企業(yè)服務(wù)