04-17 00:16 門頭溝學院數(shù)據(jù)分析師發(fā)布于廣東

關注

Doris數(shù)據(jù)傾斜原因及優(yōu)化（2萬字長文深度解析）

在大數(shù)據(jù)面試，數(shù)據(jù)傾斜幾乎是必問題。Doris是大數(shù)據(jù)后起之秀，越來越多面試官喜歡問Doris的問題。

要深入探討數(shù)據(jù)傾斜問題，首先需要了解Doris的核心架構和工作原理。Doris采用了分布式存儲和計算分離的設計，主要由FE（Frontend）和BE（Backend）兩大組件構成。FE負責元數(shù)據(jù)管理和查詢解析，而BE則負責數(shù)據(jù)的存儲和計算。數(shù)據(jù)在BE節(jié)點上以Tablet為單位進行分片存儲，通過分桶（Bucketing）機制將數(shù)據(jù)分配到不同的節(jié)點上。這種設計初衷是為了實現(xiàn)數(shù)據(jù)的均勻分布和并行計算，但實際應用中，由于數(shù)據(jù)本身的特性或建表策略的不足，數(shù)據(jù)的分布往往難以達到理想的平衡狀態(tài)。例如，當某個分桶列的選擇不當，或者數(shù)據(jù)中存在“熱點”值（即某些值出現(xiàn)的頻率極高）時，部分Tablet的數(shù)據(jù)量會遠超其他Tablet，從而導致負載不均。

數(shù)據(jù)傾斜的影響在Doris的查詢執(zhí)行中表現(xiàn)得尤為明顯。在一個典型的查詢?nèi)蝿罩校珼oris會將計算任務分解為多個子任務，分配到不同的BE節(jié)點并行執(zhí)行。如果數(shù)據(jù)分布不均，某些節(jié)點需要處理的數(shù)據(jù)量遠超其他節(jié)點，就會成為整個任務的瓶頸。這種現(xiàn)象在業(yè)內(nèi)常被形容為“木桶效應”——系統(tǒng)的整體性能取決于最慢的那個節(jié)點。更具體地來說，數(shù)據(jù)傾斜會導致查詢響應時間延長，甚至在高并發(fā)場景下引發(fā)超時錯誤。此外，由于部分節(jié)點負載過重，可能會出現(xiàn)內(nèi)存溢出或CPU占用率過高的問題，進一步影響系統(tǒng)的穩(wěn)定性。對于依賴實時分析的企業(yè)來說，這種延遲和不穩(wěn)定可能是致命的。

為了更直觀地說明數(shù)據(jù)傾斜的影響，不妨以一個實際場景為例。假設某電商平臺使用Doris存儲和分析用戶的訂單數(shù)據(jù)，表結構如下：

order_id	BIGINT	訂單ID
user_id	INT	用戶ID
order_date	DATE	訂單日期
product_category	STRING	商品類別
order_amount	DECIMAL	訂單金額

在建表時，假設選擇了`user_id`作為分桶列，并設置了多個桶進行數(shù)據(jù)分布。然而，由于平臺上某些“超級用戶”（如批發(fā)商或企業(yè)用戶）會頻繁下單，導致與這些用戶相關的訂單數(shù)據(jù)集中存儲在少數(shù)幾個Tablet中。當執(zhí)行一個聚合查詢（如計算每個用戶的總訂單金額）時，存儲這些“熱點”用戶數(shù)據(jù)的節(jié)點會承擔遠超平均水平的計算壓力，而其他節(jié)點可能幾乎處于空閑狀態(tài)。最終，整個查詢的執(zhí)行時間被少數(shù)節(jié)點拖慢，系統(tǒng)資源也未能得到充分利用。

從更廣義的角度來看，數(shù)據(jù)傾斜不僅是一個技術問題，更是一個業(yè)務問題。在金融、零售、電信等行業(yè)，大規(guī)模數(shù)據(jù)分析往往直接關聯(lián)到業(yè)務決策的及時性和準確性。如果由于數(shù)據(jù)傾斜導致分析結果延遲或系統(tǒng)不穩(wěn)定，企業(yè)可能會錯失市場機會，甚至面臨經(jīng)濟損失。更重要的是，隨著數(shù)據(jù)量的持續(xù)增長，數(shù)據(jù)傾斜問題的影響會愈發(fā)顯著。如果不及時采取優(yōu)化措施，系統(tǒng)的擴展性將受到嚴重限制，難以應對未來的業(yè)務需求。

值得注意的是，數(shù)據(jù)傾斜并非Doris獨有的問題，而是分布式系統(tǒng)中普遍存在的挑戰(zhàn)。在Hadoop和Spark等框架中，數(shù)據(jù)傾斜常出現(xiàn)在Shuffle階段，導致部分Reducer任務處理的數(shù)據(jù)量遠超其他任務。而在Doris這樣的OLAP數(shù)據(jù)庫中，數(shù)據(jù)傾斜更多體現(xiàn)在存儲層的數(shù)據(jù)分布不均和計算層的負載失衡上。盡管成因和表現(xiàn)形式有所不同，但核心問題都是資源的分配不均。因此，借鑒其他分布式系統(tǒng)的優(yōu)化經(jīng)驗，結合Doris自身的特性，尋找有效的解決方案顯得尤為重要。

數(shù)據(jù)傾斜的成因多種多樣，既可能源于數(shù)據(jù)本身的特性（如值分布不均），也可能與系統(tǒng)的配置和使用方式有關（如分桶策略不當或查詢設計不合理）。此外，不同場景下的數(shù)據(jù)傾斜表現(xiàn)和影響也有所不同。例如，在批處理任務中，數(shù)據(jù)傾斜可能僅表現(xiàn)為執(zhí)行時間的延長；而在實時分析場景中，它可能直接導致系統(tǒng)無法滿足SLA（Service Level Agreement）。因此，優(yōu)化數(shù)據(jù)傾斜并非一勞永逸的解決方案，而是需要結合具體場景進行持續(xù)調(diào)整和改進。

正因為數(shù)據(jù)傾斜問題的普遍性和復雜性，深入研究其成因和優(yōu)化方法顯得尤為迫切。對于Doris用戶而言，理解數(shù)據(jù)傾斜的影響不僅有助于提升查詢性能，還能幫助他們在系統(tǒng)設計和運維中做出更明智的選擇。例如，在建表時選擇合適的分桶列，或者在查詢時通過改寫SQL避免熱點數(shù)據(jù)的集中處理，都是有效的應對措施。更重要的是，通過對數(shù)據(jù)傾斜的優(yōu)化，用戶可以最大限度地發(fā)揮Doris的性能優(yōu)勢，降低系統(tǒng)運維成本，提升業(yè)務價值。

第一章：Doris數(shù)據(jù)庫概述與數(shù)據(jù)傾斜定義

Apache Doris 作為一款高性能的分布式 OLAP（在線分析處理）數(shù)據(jù)庫，近年來在大數(shù)據(jù)分析領域嶄露頭角。它以其卓越的查詢性能、簡潔的架構設計以及對大規(guī)模數(shù)據(jù)處理的強大支持，贏得了眾多企業(yè)的青睞，尤其在實時分析、報表生成和數(shù)據(jù)倉庫等場景中表現(xiàn)突出。然而，即便是這樣一款強大的系統(tǒng)，在面對復雜的數(shù)據(jù)分布時，也難以完全避免數(shù)據(jù)傾斜這一普遍存在的挑戰(zhàn)。為了深入探討數(shù)據(jù)傾斜的成因與優(yōu)化策略，我們需要先對 Doris 的核心架構和運行機制有一個全面的認識，同時明確數(shù)據(jù)傾斜的具體定義及其表現(xiàn)形式。

Doris 數(shù)據(jù)庫的核心架構

Doris 是一個基于 MPP（Massively Parallel Processing，大規(guī)模并行處理）架構的分布式數(shù)據(jù)庫系統(tǒng)，旨在通過多節(jié)點并行計算實現(xiàn)高吞吐量和低延遲的數(shù)據(jù)分析。其架構設計清晰地分為前端（Frontend, FE）和后端（Backend, BE）兩大核心組件，分別承擔不同的職責。

前端節(jié)點主要負責元數(shù)據(jù)管理、查詢解析和執(zhí)行計劃生成。用戶提交的 SQL 查詢首先到達 FE，F(xiàn)E 會解析查詢語句，生成邏輯執(zhí)行計劃，并將其優(yōu)化為物理執(zhí)行計劃，隨后將任務分發(fā)到各個后端節(jié)點。FE 還負責集群的管理和協(xié)調(diào)，例如節(jié)點狀態(tài)監(jiān)控、數(shù)據(jù)副本管理等，可以看作是整個系統(tǒng)的“大腦”。

后端節(jié)點則是數(shù)據(jù)的實際存儲和計算單元，每個 BE 負責存儲一部分數(shù)據(jù)并執(zhí)行分配到的計算任務。Doris 采用列式存儲模型，將數(shù)據(jù)按列組織存儲在磁盤上，這種方式極大地提升了分析型查詢的性能，因為在執(zhí)行聚合、過濾等操作時，只需讀取相關列的數(shù)據(jù)，避免了無關數(shù)據(jù)的掃描。此外，BE 節(jié)點之間通過網(wǎng)絡進行數(shù)據(jù)交換和結果匯總，形成一個高效的分布式計算網(wǎng)絡。

Doris 的存儲模型還引入了分桶（Bucket）和分片（Partition）的概念。數(shù)據(jù)表可以根據(jù)指定的列（如時間、ID 等）進行分區(qū)，每個分區(qū)內(nèi)再進一步劃分為多個桶，桶內(nèi)的數(shù)據(jù)分布在不同的 BE 節(jié)點上。這種分層設計旨在實現(xiàn)數(shù)據(jù)的均勻分布和并行處理，但如果分桶策略不當或數(shù)據(jù)本身存在偏差，就可能導致某些節(jié)點的數(shù)據(jù)量或計算負載遠超其他節(jié)點，進而引發(fā)性能瓶頸。

Doris 的查詢執(zhí)行機制

在理解 Doris 的架構基礎上，查詢執(zhí)行機制是另一個需要關注的重點。Doris 的查詢處理流程體現(xiàn)了 MPP 架構的核心思想：并行計算與分布式協(xié)作。當一個查詢到達 FE 后，系統(tǒng)會根據(jù)數(shù)據(jù)的分布情況和查詢條件，將任務分解為多個子任務，并分配到對應的 BE 節(jié)點上執(zhí)行。每個 BE 節(jié)點獨立處理自己負責的數(shù)據(jù)片段，計算完成后將中間結果返回給 FE 或直接進行節(jié)點間的數(shù)據(jù)交換，最終匯總形成完整的結果。

這種并行執(zhí)行的方式在理想情況下能夠顯著提升查詢效率，尤其是在處理大規(guī)模數(shù)據(jù)集時。例如，假設一個表有 100 億條記錄，分布在 10 個 BE 節(jié)點上，每個節(jié)點只需處理 10 億條數(shù)據(jù)，理論上可以將查詢時間縮短為原來的十分之一。然而，這種理想狀態(tài)的前提是數(shù)據(jù)和計算任務在節(jié)點間的分布是均勻的。一旦某個節(jié)點的數(shù)據(jù)量或計算復雜度遠高于其他節(jié)點，整體查詢的完成時間將取決于最慢的那個節(jié)點，形成“木桶效應”。

Doris 在查詢執(zhí)行中還支持多種優(yōu)化技術，例如向量化執(zhí)行、查詢重寫和索引利用。向量化執(zhí)行通過批量處理數(shù)據(jù)減少 CPU 開銷，而查詢重寫則通過邏輯優(yōu)化減少不必要的計算。這些機制進一步提升了系統(tǒng)的性能，但在數(shù)據(jù)分布不均的情況下，這些優(yōu)化手段的效果可能會大打折扣。

數(shù)據(jù)傾斜的定義與表現(xiàn)形式

在對 Doris 的基本架構和運行機制有了初步了解后，我們可以聚焦到數(shù)據(jù)傾斜這一核心問題上。數(shù)據(jù)傾斜（Data Skew）是指在分布式系統(tǒng)中，數(shù)據(jù)或計算任務在節(jié)點間的分布不均衡，導致部分節(jié)點負載過重，而其他節(jié)點資源利用不足的現(xiàn)象。這種不均衡可能發(fā)生在數(shù)據(jù)存儲階段，也可能發(fā)生在查詢執(zhí)行階段，最終對系統(tǒng)的整體性能產(chǎn)生負面影響。

在 Doris 中，數(shù)據(jù)傾斜的表現(xiàn)形式多種多樣，但歸根結底都與數(shù)據(jù)分布和任務分配的不均有關。一種常見的情況是存儲層面的數(shù)據(jù)傾斜，即某些分桶或分片中的數(shù)據(jù)量遠超其他分桶。例如，假設一個電商平臺的數(shù)據(jù)表按用戶 ID 進行分桶，如果某些用戶（如超級買家）的訂單數(shù)量遠高于平均水平，那么存儲這些用戶數(shù)據(jù)的桶可能會變得異常龐大，相應的 BE 節(jié)點將承受更大的存儲和計算壓力。

另一種表現(xiàn)形式是計算層面的傾斜，即在查詢執(zhí)行過程中，某些節(jié)點分配到的計算任務明顯比其他節(jié)點復雜或耗時。這種情況往往與數(shù)據(jù)的分布特性以及查詢條件有關。例如，一個查詢需要對某個熱門商品的銷售數(shù)據(jù)進行聚合，如果該商品的數(shù)據(jù)集中存儲在少數(shù)幾個桶中，那么負責這些桶的 BE 節(jié)點將需要處理更多的計算任務，而其他節(jié)點可能處于空閑狀態(tài)。

為了更直觀地說明數(shù)據(jù)傾斜的影響，可以通過一個簡單的示例加以說明。假設我們有一個訂單表，包含 1 億條記錄，分布在 5 個 BE 節(jié)點上，理想情況下每個節(jié)點存儲 2000 萬條記錄。以下是一個未發(fā)生傾斜和發(fā)生傾斜時的分布對比：

BE1	20,000,000	50,000,000
BE2	20,000,000	10,000,000
BE3	20,000,000	10,000,000
BE4	20,000,000	10,000,000
BE5	20,000,000	20,000,000

在理想分布中，每個節(jié)點的負載是均衡的，查詢執(zhí)行時間取決于單個節(jié)點的處理速度。而在傾斜分布中，BE1 存儲了 50% 的數(shù)據(jù)，其處理時間可能遠超其他節(jié)點，導致整個查詢的完成時間被拖延。更為嚴重的是，這種不均衡還可能引發(fā)資源競爭，例如磁盤 I/O 瓶頸或內(nèi)存溢出，進一步惡化系統(tǒng)性能。

除了存儲和計算層面的傾斜，數(shù)據(jù)傾斜還可能以熱點問題的形式表現(xiàn)出來。熱點問題是指某些數(shù)據(jù)或查詢模式導致系統(tǒng)資源被頻繁訪問，形成訪問集中。例如，在一個社交媒體平臺中，某些明星用戶的動態(tài)數(shù)據(jù)可能被大量查詢，這些數(shù)據(jù)所在的節(jié)點將成為熱點節(jié)點，承受極高的訪問壓力。這種熱點不僅會影響查詢性能，還可能導致系統(tǒng)的不穩(wěn)定，甚至引發(fā)節(jié)點宕機。

數(shù)據(jù)傾斜的影響與挑戰(zhàn)

數(shù)據(jù)傾斜對 Doris 系統(tǒng)的影響是多方面的。它不僅會降低查詢效率，還會對系統(tǒng)的穩(wěn)定性和可擴展性構成威脅。在查詢效率方面，傾斜導致的“木桶效應”使得整體性能受限于最慢的節(jié)點，用戶體驗因此受到損害。在資源利用方面，部分節(jié)點過載而其他節(jié)點空閑，導致集群整體的資源利用率低下，浪費了寶貴的計算能力。

更重要的是，數(shù)據(jù)傾斜還可能引發(fā)連鎖反應。例如，負載過重的節(jié)點可能因資源耗盡而出現(xiàn)故障，而 Doris 的副本機制雖然能夠提供一定的容錯能力，但頻繁的故障恢復會進一步增加系統(tǒng)開銷，甚至導致查詢失敗。在大規(guī)模數(shù)據(jù)分析場景中，這種問題尤為突出，因為數(shù)據(jù)量越大，傾斜的影響越顯著。

為了應對這些挑戰(zhàn)，理解數(shù)據(jù)傾斜的成因和表現(xiàn)形式是第一步。在后續(xù)的內(nèi)容中，我們將深入剖析導致數(shù)據(jù)傾斜的根本原因，例如數(shù)據(jù)本身的特性、分桶策略的設計以及查詢模式的分布特點。

結合實際場景的初步分析

為了將理論與實踐更好地結合，我們可以從一個常見的業(yè)務場景入手，初步分析數(shù)據(jù)傾斜的潛在風險。以一個電商平臺為例，假設其核心數(shù)據(jù)表記錄了用戶的訂單信息，表結構如下：

CREATE TABLE orders (    order_id BIGINT,    user_id BIGINT,    product_id BIGINT,    order_date DATE,    amount DECIMAL(10,2)) DISTRIBUTED BY HASH(user_id) BUCKETS 32;

在這個表中，數(shù)據(jù)按 `user_id` 進行哈希分桶，共有 32 個桶，分布在多個 BE 節(jié)點上。表面上看，這種分桶策略是合理的，因為用戶 ID 通常具有較好的離散性。然而，如果平臺中存在少量“超級用戶”（例如批發(fā)商或企業(yè)客戶），他們的訂單數(shù)量可能占到總訂單的 50% 以上，那么這些用戶的數(shù)據(jù)將被集中分配到少數(shù)幾個桶中，形成明顯的傾斜。

在執(zhí)行查詢時，例如統(tǒng)計某段時間內(nèi)的訂單總額：

SELECT SUM(amount) FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31';

負責存儲超級用戶數(shù)據(jù)的節(jié)點將處理遠超平均水平的記錄數(shù)，而其他節(jié)點可能很快完成任務并處于等待狀態(tài)。這種不均衡直接導致查詢延遲，甚至可能因為單個節(jié)點的資源耗盡而失敗。

通過這個簡單的例子，我們可以看到數(shù)據(jù)傾斜并非一個抽象的概念，而是與業(yè)務場景和數(shù)據(jù)特性緊密相關的實際問題。Doris 作為一個強大的分布式數(shù)據(jù)庫，雖然提供了靈活的分桶機制和查詢優(yōu)化手段，但在面對復雜的數(shù)據(jù)分布時，仍需要用戶根據(jù)具體場景進行細致的調(diào)優(yōu)。

第二章：數(shù)據(jù)傾斜在Doris中的具體表現(xiàn)

在分布式系統(tǒng)中，數(shù)據(jù)傾斜是一種常見而又棘手的問題，尤其是在像 Apache Doris 這樣基于 MPP（大規(guī)模并行處理）架構的 OLAP 數(shù)據(jù)庫中，其影響往往會被放大。由于 Doris 的設計目標是高效處理大規(guī)模數(shù)據(jù)，數(shù)據(jù)分布和任務分配的均衡性直接關系到系統(tǒng)的整體性能。一旦數(shù)據(jù)傾斜發(fā)生，部分節(jié)點可能承受過高的負載，而其他節(jié)點則處于空閑狀態(tài)，導致資源利用率低下，甚至引發(fā)查詢延遲或系統(tǒng)故障。本部分將深入探討數(shù)據(jù)傾斜在 Doris 中的具體表現(xiàn)形式，覆蓋數(shù)據(jù)存儲階段和查詢執(zhí)行階段的典型場景，并結合業(yè)務案例進行分析，以便讀者更直觀地理解其影響和成因。

數(shù)據(jù)存儲階段的傾斜表現(xiàn)

在 Doris 中，數(shù)據(jù)的存儲和管理基于分桶分片（Bucketing 和 Partitioning）機制。數(shù)據(jù)按照分區(qū)鍵和分桶鍵被劃分為多個片段，分布到不同的后端節(jié)點（BE）上進行存儲。如果設計不當或數(shù)據(jù)特性本身存在偏差，這種分片機制很容易導致數(shù)據(jù)在節(jié)點間的分布不均，形成存儲層面的傾斜。

一個常見的場景是分區(qū)鍵選擇不當導致的數(shù)據(jù)分布不均衡。例如，假設一個表按照日期字段作為分區(qū)鍵，而業(yè)務數(shù)據(jù)的生成時間高度集中在某個時間段內(nèi)（如某一天或某一個月），那么對應的分區(qū)數(shù)據(jù)量會遠超其他分區(qū)。這種情況下，存儲該分區(qū)的 BE 節(jié)點會存儲大量數(shù)據(jù)，而其他節(jié)點可能幾乎沒有數(shù)據(jù)，造成存儲資源的浪費。更嚴重的是，當查詢涉及到這些數(shù)據(jù)量較大的分區(qū)時，單個節(jié)點需要處理的計算任務會顯著增加，進而影響查詢性能。為了直觀展示這種現(xiàn)象，可以參考下表，假設一個表按日期分區(qū)，數(shù)據(jù)分布如下：

2023-01-01	10,000	BE1
2023-01-02	500,000	BE2
2023-01-03	8,000	BE1
2023-01-04	12,000	BE3

從表格中可以清晰看出，存儲在 BE2 上的數(shù)據(jù)量遠超其他節(jié)點，這種分布不均直接導致 BE2 成為性能瓶頸。此外，如果分桶鍵的選擇不具備良好的散列特性，也會加劇數(shù)據(jù)傾斜。例如，使用一個值分布極不均勻的字段（如性別字段，只有“男”和“女”兩種值）作為分桶鍵，會導致大部分數(shù)據(jù)集中在少數(shù)幾個桶中，進而映射到少數(shù) BE 節(jié)點上。

存儲階段的傾斜不僅僅影響資源利用率，還會對數(shù)據(jù)寫入和導入操作產(chǎn)生負面影響。在 Doris 中，數(shù)據(jù)導入通常是并行化的，但如果目標分區(qū)或桶分布不均，部分節(jié)點會因為接收過多數(shù)據(jù)而成為瓶頸，導致整體導入效率下降。這種問題在高并發(fā)寫入場景中尤為突出，比如實時日志分析系統(tǒng)中，日志數(shù)據(jù)可能按照設備 ID 或用戶 ID 分片，如果某些設備或用戶的日志量遠超其他設備，存儲傾斜幾乎不可避免。

查詢執(zhí)行階段的傾斜表現(xiàn)

相比存儲階段的傾斜，查詢執(zhí)行階段的數(shù)據(jù)傾斜往往更具隱蔽性，但其對性能的影響同樣不容忽視。在 Doris 中，查詢計劃由前端節(jié)點（FE）生成并分解為多個任務，分配給后端節(jié)點（BE）并行執(zhí)行。如果數(shù)據(jù)分布不均或查詢操作本身存在特性差異，某些節(jié)點可能會被分配到遠超其處理能力的任務量，從而拖慢整體查詢速度。

一個典型的例子是 Join 操作中的數(shù)據(jù)傾斜。在分布式 Join 操作中，Doris 會根據(jù) Join 鍵對數(shù)據(jù)進行重分布（Shuffle），以確保相同鍵值的數(shù)據(jù)被發(fā)送到同一個節(jié)點進行計算。如果 Join 鍵的值分布不均，例如某個鍵值對應大量記錄，那么接收該鍵值的節(jié)點會處理過多的數(shù)據(jù)，而其他節(jié)點可能幾乎無事可做。這種現(xiàn)象在業(yè)務場景中非常常見，比如在電商數(shù)據(jù)分析中，分析用戶訂單數(shù)據(jù)時，Join 鍵為用戶 ID，而某些高活躍用戶（大客戶）的訂單數(shù)量遠超普通用戶，導致數(shù)據(jù)在重分布后集中到少數(shù)節(jié)點。

為了更直觀地說明這一問題，可以參考以下偽代碼，展示 Join 操作中可能出現(xiàn)的數(shù)據(jù)分布：

-- 假設有兩個表：訂單表 orders 和用戶表 usersSELECT o.order_id, u.user_nameFROM orders oJOIN users u ON o.user_id = u.user_idWHERE o.order_date = '2023-01-01';

假設 `orders` 表中，某個 `user_id`（如 ID=1001）對應 10 萬條訂單記錄，而其他用戶平均只有 10 條記錄。在 Join 操作中，Doris 會將所有 `user_id=1001` 的記錄分發(fā)到同一個 BE 節(jié)點，導致該節(jié)點處理的數(shù)據(jù)量遠超其他節(jié)點。這種傾斜不僅會延長查詢時間，還可能導致內(nèi)存溢出或節(jié)點崩潰。

除了 Join 操作，聚合操作（Aggregation）也容易引發(fā)查詢傾斜。例如，使用 `GROUP BY` 語句時，如果分組鍵的值分布不均，某些分組的結果集會遠大于其他分組，負責計算該分組的節(jié)點會承受過高的負載。這種問題在分析場景中經(jīng)常遇到，比如按地區(qū)統(tǒng)計銷售額時，如果某個地區(qū)（如一線城市）的交易量遠超其他地區(qū)，數(shù)據(jù)傾斜幾乎是必然的。

常見業(yè)務場景中的數(shù)據(jù)傾斜案例

為了更貼近實際應用，下面結合兩個具體的業(yè)務場景，分析數(shù)據(jù)傾斜在 Doris 中的表現(xiàn)形式及其影響。

在廣告投放分析場景中，廣告平臺通常需要實時分析廣告點擊和轉(zhuǎn)化數(shù)據(jù)。假設數(shù)據(jù)表按照廣告 ID 作為分桶鍵存儲，而某些熱門廣告的點擊量遠超其他廣告，導致存儲和查詢?nèi)蝿占械缴贁?shù) BE 節(jié)點上。在這種情況下，不僅存儲資源的利用率低下，查詢性能也會受到嚴重影響。例如，計算某廣告的點擊率時，涉及該廣告數(shù)據(jù)的節(jié)點需要處理大量記錄，而其他節(jié)點幾乎空閑，整體查詢時間被少數(shù)節(jié)點拖慢。更糟糕的是，如果熱門廣告的數(shù)據(jù)量持續(xù)增長，單節(jié)點可能無法承受負載，導致查詢失敗或系統(tǒng)不穩(wěn)定。

另一個案例來自物聯(lián)網(wǎng)（IoT）設備監(jiān)控場景。在該場景中，設備日志數(shù)據(jù)按照設備 ID 進行分片存儲和查詢。然而，某些設備的日志生成頻率遠高于其他設備，比如某些核心設備每秒生成數(shù)百條日志，而普通設備每天僅生成幾條。這種數(shù)據(jù)分布特性會導致存儲和查詢的雙重傾斜。在存儲層面，負責存儲高頻設備日志的節(jié)點磁盤空間和 I/O 負載激增；在查詢層面，分析特定設備行為時，涉及高頻設備的節(jié)點計算壓力巨大。這種傾斜不僅影響系統(tǒng)性能，還可能導致數(shù)據(jù)導入延遲，影響實時監(jiān)控的效果。

數(shù)據(jù)傾斜對系統(tǒng)整體的影響

無論是存儲階段還是查詢階段，數(shù)據(jù)傾斜都會對 Doris 系統(tǒng)的整體性能和穩(wěn)定性產(chǎn)生深遠影響。從資源利用率的角度看，傾斜導致部分節(jié)點過載，而其他節(jié)點空閑，整體集群的計算和存儲能力無法充分發(fā)揮。從用戶體驗的角度看，傾斜會顯著延長查詢響應時間，甚至導致查詢失敗，影響業(yè)務決策的及時性。更重要的是，在高并發(fā)場景下，數(shù)據(jù)傾斜可能引發(fā)系統(tǒng)級故障，例如節(jié)點宕機或集群不穩(wěn)定，進一步加劇問題。

值得注意的是，數(shù)據(jù)傾斜的影響往往是多方面的。例如，存儲傾斜不僅會影響寫入性能，還會間接導致查詢傾斜，因為查詢?nèi)蝿盏姆峙渫ǔＲ蕾囉跀?shù)據(jù)分布。反過來，查詢傾斜也可能加劇存儲傾斜，例如在數(shù)據(jù)重分布過程中，某些節(jié)點接收過多數(shù)據(jù)，導致磁盤負載進一步失衡。這種相互影響的關系使得數(shù)據(jù)傾斜問題更加復雜，需要從多個維度進行分析和優(yōu)化。

如何識別數(shù)據(jù)傾斜的表現(xiàn)

在實際運維中，識別數(shù)據(jù)傾斜是解決問題的第一步。Doris 提供了豐富的監(jiān)控工具和指標，幫助用戶發(fā)現(xiàn)潛在的傾斜問題。例如，通過查詢 BE 節(jié)點的存儲使用量，可以快速判斷是否存在存儲傾斜；通過分析查詢執(zhí)行計劃和任務分配情況，可以識別 Join 或聚合操作中的查詢傾斜。此外，Doris 的日志系統(tǒng)也記錄了節(jié)點負載和任務執(zhí)行時間等關鍵信息，運維人員可以借助這些數(shù)據(jù)定位問題根源。

以存儲傾斜為例，可以通過以下 SQL 查詢檢查各分區(qū)的行數(shù)分布：

SHOW PARTITIONS FROM table_name;

該命令會返回每個分區(qū)的詳細信息，包括行數(shù)和存儲位置。如果某個分區(qū)的行數(shù)遠超其他分區(qū)，存儲傾斜的可能性較大。類似地，在查詢執(zhí)行過程中，可以通過 Doris 的 Web UI 查看任務分配情況，如果某個 BE 節(jié)點的執(zhí)行時間明顯長于其他節(jié)點，查詢傾斜的可能性較高。

第三章：Doris數(shù)據(jù)傾斜的成因分析

在分布式系統(tǒng)中，數(shù)據(jù)傾斜是一個普遍存在且影響深遠的問題，A

剩余60%內(nèi)容，訂閱專欄后可繼續(xù)查看/也可單篇購買

大數(shù)據(jù)從入門到精通-最全面試題文章被收錄于專欄

17年+碼農(nóng)經(jīng)歷了很多次面試，多次作為面試官面試別人，多次大數(shù)據(jù)面試和面試別人，深知哪些面試題是會被經(jīng)常問到。在多家企業(yè)從0到1開發(fā)過離線數(shù)倉實時數(shù)倉等多個大型項目，詳細介紹項目架構等企業(yè)內(nèi)部秘不外傳的資料，介紹踩過的坑和開發(fā)干貨，分享多個拿來即用的大數(shù)據(jù)ETL工具，讓小白用戶快速入門并精通，指導如何入職后快速上手。計劃更新內(nèi)容100篇以上，包括一些企業(yè)內(nèi)部秘不外宣的干貨，歡迎訂閱！