莉莉絲 | ETL開發(fā)日常一面涼經(jīng)

整體面了50min，面試官很溫柔

可惜我太菜了，昨天下午面，今天早上秒掛

感覺莉莉絲這個崗偏數(shù)倉底層的一些數(shù)據(jù)開發(fā)，或者說是數(shù)據(jù)模型的設(shè)計

自我介紹
拷打項目（擺了一段時間突然收到面試，沒怎么準備被狠狠拷打了）
講一講維度建模整體過程，如何設(shè)計（我答了個數(shù)倉分層，被蠢哭了，后面被提醒說了說星型模型）
維度建模理論這里的冗余是指什么，如果維度變了怎么辦（緩慢變化維）
說說做了哪些指標，做了哪些標簽
DQC里面具體校驗了什么東西
如何保證數(shù)據(jù)質(zhì)量的規(guī)范
30min之后說來做兩道sql吧（口述完第一道，做完就沒時間了，場景很有意思不愧為游戲公司）
sql題：現(xiàn)在有一輛小車在二維平面上，然后每一秒上報一次它的坐標（x, y），表的結(jié)構(gòu)類似（time, x, y），然后這樣一分鐘下來的話，它就會上報60個坐標，因為小車的行駛方向是任意的，所以它可能是一個折線圖，求他連續(xù)行駛的最大直線距離（不用考慮一些特殊情況，說說大概思路）
先lag或lead開窗，求相鄰兩行的斜率k：（y2-y1）/（x2-x1）
再group by k，對相同k的這幾行數(shù)據(jù)參考連續(xù)登錄思路
row_number()再開窗，算出最大直線距離
面試官的另一種解法：考慮轉(zhuǎn)彎的這個關(guān)鍵點就好了。只要你斜率不一樣的話，你就相當于如果你下一條，你每個數(shù)據(jù)比一下，如果斜率相同的賦0，如果斜率不同的賦1，然后只要你每變一次，那個標記就是1。然后你用一個累計求和的開窗函數(shù)，你把前面的這個標記加起來就可以了
反問

全部評論

推薦最新樓層

circle779

門頭溝學(xué)院大數(shù)據(jù)開發(fā)工程師

?？蛿?shù)開區(qū)已經(jīng)被占領(lǐng)了

1 回復(fù) 分享

發(fā)布于 04-10 21:13 北京

?？?61513826號

門頭溝學(xué)院大數(shù)據(jù)開發(fā)工程師

大佬好強，這個sql題好有意思啊，我有些自己的理解：給每個k分組，然后對每個組求出距離。難點在于怎么把k分組，所以可以用打斷點的方式計算（面試官的思路），拐點打斷點，后面累加就完成了分組，然后對每個分組求距離，比大小。但是大佬你這里用排名函數(shù)的思路我覺得有點漏洞，group by之后會去重，這樣只能算出哪一組k最多，雖然這一組k最多，但是不一定這組k的距離就是最大啊。比如k1有4條，k2有5條，group by之后把k2拿了出來進行計算距離，但是如果k1這四條走的都是對角線斜邊，而k2這5條走的都是x直角邊，這個大小是不是就不好判斷了，k1的4條斜邊走的距離可能比k2的5條直角邊還長。所以是不是要對每一組都進行距離計算，而不是group by把最多那個k拿出來單獨算？

1 回復(fù) 分享

發(fā)布于 04-10 16:05 湖北

chaosy

南開大學(xué) 大數(shù)據(jù)開發(fā)工程師

問題比較常規(guī)，這個崗更偏數(shù)據(jù)中臺一些，了解了一下好像游戲業(yè)除騰訊網(wǎng)易外基本只有莉莉絲有大中臺模式，所以喜歡考察建模

1 回復(fù) 分享

發(fā)布于 04-10 12:04 廣東

數(shù)開小菜雞_暫退沉淀版

Soul_數(shù)據(jù)研發(fā)部_數(shù)據(jù)開發(fā)(實習(xí)員工)

3.應(yīng)該是回答維度建模吧，基于業(yè)務(wù)過程將數(shù)據(jù)組織成事實表和維度表，然后可以扯一扯怎么建模事實表，比如五要素，數(shù)據(jù)域，事實表類型，顆粒度，維度，事實這些

1 回復(fù) 分享

發(fā)布于 04-10 11:59 安徽

05-15 09:34

門頭溝小學(xué) 數(shù)據(jù)分析師

【SQL 周周練】一千條數(shù)據(jù)需要做一天，怎么用 SQL 處理電表數(shù)據(jù)（如何動態(tài)構(gòu)造自然月）

大家好，我是“蔣點數(shù)分”，多年以來一直從事數(shù)據(jù)分析工作。從今天開始，與大家持續(xù)分享關(guān)于數(shù)據(jù)分析的學(xué)習(xí)內(nèi)容。本文是第 6 篇，也是【SQL 周周練】系列的第 5 篇。該系列是挑選或自創(chuàng)具有一些難度的 SQL 題目，一周至少更新一篇。后續(xù)創(chuàng)作的內(nèi)容，初步規(guī)劃的方向包括：后續(xù)內(nèi)容規(guī)劃1.利用 Streamlit 實現(xiàn) Hive 元數(shù)據(jù)展示、SQL 編輯器、 結(jié)合Docker 沙箱實現(xiàn)數(shù)據(jù)分析 Agent2.時間序列異常識別、異動歸因算法3.留存率擬合、預(yù)測、建模4.學(xué)習(xí) AB 實驗、復(fù)雜實驗設(shè)計等5.自動化機器學(xué)習(xí)、自動化特征工程6.因果推斷學(xué)習(xí)7. ……歡迎關(guān)注，一起學(xué)習(xí)。第 5 期題目題目來源：...

SQL周周練

點贊評論收藏

05-14 00:09

門頭溝學(xué)院大數(shù)據(jù)開發(fā)工程師

螞蟻金服大數(shù)據(jù)開發(fā)

#面試問題記錄# 面試螞蟻金服到了技術(shù)3面，但沒有hr面了問題如下；1項目介紹一下2 干的數(shù)據(jù)開發(fā)技術(shù)組件和模型以及數(shù)據(jù)治理說一下3離線數(shù)倉怎么確保任務(wù)及時性，任務(wù)產(chǎn)生了dqc告警怎么解決4 干財務(wù)工作模型該怎么設(shè)計5數(shù)據(jù)治理該怎么治理，比如模型治理，運行效率，和任務(wù)合理性以及跨層很多問題6 實時任務(wù)一旦延遲該怎么快速解決延遲，如何確保數(shù)據(jù)不重復(fù)，不丟數(shù)據(jù)，如何知道延遲7flink任務(wù)優(yōu)化可以從哪些方面入手，對于效率問題該怎么操作8kafka分區(qū)和寫入該怎么設(shè)計，怎么能確保下游消費數(shù)據(jù)不延遲，不丟數(shù)據(jù)9 實時數(shù)倉如何做到指標實時，并且數(shù)據(jù)不會算錯，10對于olap引擎知道哪一些，哪個更好，后續(xù)推薦用哪一款來批流一體#?？虯I配圖神器#

查看10道真題和解析面試問題記錄

點贊評論收藏

04-25 22:24

武漢理工大學(xué) 大數(shù)據(jù)開發(fā)工程師

4.25騰訊云智數(shù)開一面

1. 基本情況方向：數(shù)據(jù)工程，時間：40分鐘結(jié)束、16:00開始，無手撕，多場景2. 自我介紹3. 一些能夠回憶起來的（或許有不正確的地方）：（1）提問R：你這個項目是課程作業(yè)還是什么？R：那你說說Hive和ClickHouseR：你談到了OLAP，那和OLTP有啥區(qū)別？R：沒了？ClickHouse適合那種場景？R：可以用作實時數(shù)倉嗎？R：課程中有數(shù)據(jù)庫相關(guān)的嗎？只有數(shù)據(jù)結(jié)構(gòu)與算法？R：MySQL系統(tǒng)學(xué)習(xí)過嗎？R：數(shù)據(jù)怎么導(dǎo)入到ClickHouse的？R：直接到ClickHouse？R：數(shù)倉分層？四層講講。R：那為什么要分層呢？DWS已經(jīng)差不多了為什么還需要ADS呢？R：場景題：在你的表上新...

?？?61513826號：A場景題：數(shù)量統(tǒng)計不說了；退貨平均時間：先溝通清楚，月平均退貨時間算不算上不退貨的用戶，不算的話，就只計算退貨用戶；一個用戶的退貨時間減去到貨時間拿到這件商品的退貨時間，然后計算每個退貨用戶的退貨時間，AVG開窗partition by月份，計算出每個月的平均退貨時間。如果要算上不退貨的用戶，也就是讓這個用戶的退貨時間是0，然后對所有用戶計算AVG同上。 B場景題：結(jié)合下面他提示你再想想數(shù)據(jù)傾斜，其實這道題是想靠你數(shù)據(jù)傾斜怎么解決；本來是一個商品購買信息表，記錄商品信息和購買者信息，如果給購買者信息加上性別，要求算出每個商品不同性別的購買人數(shù)。百分之八十女性用戶，所以如果單純對表進行分組聚合，會產(chǎn)生數(shù)據(jù)傾斜問題，由分組聚合產(chǎn)生。五種辦法可以解決，兩種hive參數(shù)，三種SQL，往SQL方向聊，以防他追問參數(shù)底層，參數(shù)這種東西最難聊了，別給自己挖坑

查看29道真題和解析數(shù)據(jù)人的面試交流地牛客解憂鋪

點贊評論收藏