數(shù)據(jù)倉庫 - 轉(zhuǎn)轉(zhuǎn) - 一面涼經(jīng)
面試流程
自我介紹
Python 中,如何在數(shù)據(jù)清洗過程中應(yīng)對(duì)內(nèi)存不夠的情況
如何避免,在使用Pandas處理大規(guī)模數(shù)據(jù)時(shí),經(jīng)常會(huì)遇到“SettingWithCopyWarning”警告
在Hive中,當(dāng)您使用動(dòng)態(tài)分區(qū)功能進(jìn)行數(shù)據(jù)插入時(shí),可能會(huì)遇到“too many dynamic partitions”錯(cuò)誤,如何處理
在Apache Spark中,寬依賴(Wide Dependency)和窄依賴(Narrow Dependency)是兩種不同類型的依賴關(guān)系,對(duì)性能分別有什么影響
在使用Kafka作為消息隊(duì)列時(shí),消費(fèi)者出現(xiàn)重復(fù)消費(fèi)的問題是比較常見的,分析原因,怎么處理
在使用Kafka攔截器(Interceptors)時(shí),需要注意什么,以確保其正確性和效率
reduce 的階段,長(zhǎng)時(shí)間卡在99%,分析原因,如何排查
Spark 運(yùn)行任務(wù),出現(xiàn)小文件的問題,如何處理
數(shù)據(jù)治理過程中,需要下線重復(fù)指標(biāo),如何驗(yàn)證下游不會(huì)受到影響
Jenkins 如何避免多分支沖突
數(shù)倉設(shè)計(jì)中,如何設(shè)計(jì) ODS 和 DWD 層的字段顆粒度
從 MySQL 導(dǎo)入數(shù)據(jù)至 Hive,使用 Scoop 如何解決數(shù)據(jù)不一致問題
DQC 告警如何判斷
如何權(quán)衡小文件處理過程中的時(shí)間 、 空間 、 資源消耗
數(shù)據(jù)治理中,代碼之外,哪些地方可以優(yōu)化
看板口徑整合,數(shù)據(jù)一致性如何保障
成果中的指標(biāo)變化,數(shù)據(jù)計(jì)算方式和來源具體講解
數(shù)據(jù)變化是如何評(píng)估的
思維題:設(shè)計(jì)一個(gè)高并發(fā)的日志采集和分析系統(tǒng),要求使用 Flume、HDFS、Kafka,分析并詳細(xì)講解技術(shù)選型,在這個(gè)場(chǎng)景中,針對(duì)數(shù)據(jù)丟失的情況,如何做預(yù)防,設(shè)計(jì)一些方法思路
反問環(huán)節(jié)