05-07 23:40 門頭溝學(xué)院數(shù)據(jù)分析師發(fā)布于廣東

關(guān)注

從小白成長到大牛關(guān)鍵：Flink在實時計算如何調(diào)試或查看中間結(jié)果（螞蟻金服、虎牙、BIGO面經(jīng)））

在大數(shù)據(jù)處理的浪潮中，Apache Flink 無疑是當前最炙手可熱的流式處理框架之一。它以低延遲、高吞吐量以及強大的容錯能力，成為無數(shù)企業(yè)構(gòu)建實時數(shù)據(jù)處理管道的首選工具。不管是實時日志分析、用戶行為監(jiān)控，還是金融交易的風控系統(tǒng)，F(xiàn)link 都能游刃有余地應(yīng)對海量數(shù)據(jù)的持續(xù)流入。然而，開發(fā)和維護一個高效的 Flink 程序絕非易事，尤其是在面對復(fù)雜的業(yè)務(wù)邏輯和動態(tài)變化的數(shù)據(jù)流時，調(diào)試和查看中間結(jié)果就顯得尤為關(guān)鍵。

想象一下，你辛辛苦苦寫好了一套 Flink 程序，部署到集群上后卻發(fā)現(xiàn)輸出的結(jié)果和預(yù)期完全不符。數(shù)據(jù)丟失了？還是計算邏輯有偏差？又或者是某些算子在處理時遇到了瓶頸？這個時候，如果沒有有效的調(diào)試手段和查看中間結(jié)果的能力，你可能只能像無頭蒼蠅一樣亂撞，浪費大量時間在猜測和試錯上。更別提在流式處理中，數(shù)據(jù)是源源不斷的，一旦程序出了問題，影響的可能不僅僅是當前批次的數(shù)據(jù)，而是整個業(yè)務(wù)流程的穩(wěn)定性。

調(diào)試 Flink 程序的意義就在于，它能幫助我們快速定位問題的根源。流式處理的本質(zhì)決定了我們無法像批處理那樣輕易地暫停整個流程，或者直接查看所有數(shù)據(jù)的全貌。因此，查看中間結(jié)果就成了一個不可或缺的手段。通過在程序的關(guān)鍵節(jié)點插入檢查點，或者利用 Flink 提供的工具查看數(shù)據(jù)的流轉(zhuǎn)情況，我們可以清晰地了解每一步計算是否符合預(yù)期。比如說，在一個用戶行為分析的場景中，你可能需要確認某個過濾算子是否正確篩除了無效數(shù)據(jù)，或者某個窗口聚合是否準確計算了每分鐘的訪問量。這些中間結(jié)果的驗證，不僅僅是排查錯誤的利器，更是優(yōu)化程序性能的重要依據(jù)。

說到性能優(yōu)化，這也是調(diào)試和查看中間結(jié)果的一個核心價值所在。Flink 的分布式執(zhí)行模型讓數(shù)據(jù)在多個 TaskManager 之間并行處理，但這也意味著資源分配、數(shù)據(jù)傾斜等問題可能隱藏在程序運行的背后。比如，你可能會發(fā)現(xiàn)某個算子的處理速度明顯慢于其他算子，導(dǎo)致整個作業(yè)的吞吐量受限。通過查看中間結(jié)果和運行時指標，你可以迅速判斷是否是數(shù)據(jù)分布不均導(dǎo)致的負載失衡，進而調(diào)整分區(qū)策略或者優(yōu)化計算邏輯。舉個簡單的例子，假設(shè)你在處理一個實時的訂單流數(shù)據(jù)，某個下游算子總是積壓大量數(shù)據(jù)，而上游算子卻幾乎空閑，這時候查看中間結(jié)果就能幫你確認是否需要增加并行度，或者調(diào)整數(shù)據(jù)的 keyBy 策略。

此外，驗證邏輯的正確性也是調(diào)試過程中不可忽視的一環(huán)。Flink 程序往往涉及多階段的轉(zhuǎn)換和計算，從數(shù)據(jù)攝入到最終輸出，每一步都可能引入細微的錯誤。特別是在處理復(fù)雜的事件時間和窗口操作時，邏輯上的一個小失誤就可能導(dǎo)致結(jié)果完全偏離預(yù)期。比如說，你可能在定義滑動窗口時設(shè)置了錯誤的步長，導(dǎo)致數(shù)據(jù)被重復(fù)計算或遺漏。有了中間結(jié)果的查看，你可以在程序運行時實時驗證每個階段的輸出，確保每一步都嚴格按照設(shè)計意圖執(zhí)行。

當然，調(diào)試和查看中間結(jié)果的重要性不僅體現(xiàn)在問題排查和性能優(yōu)化上，它還能顯著提升開發(fā)者的信心和效率。試想一下，如果每次修改代碼后都能快速確認程序的行為是否正確，你是不是會更有動力去嘗試新的優(yōu)化方案？反過來，如果每次調(diào)試都像大海撈針一樣費時費力，恐怕很多人都會對開發(fā) Flink 程序望而卻步。

值得一提的是，F(xiàn)link 作為一個功能強大的框架，本身就提供了不少用于調(diào)試和監(jiān)控的工具，比如 Web UI、日志系統(tǒng)以及 Metrics 指標等。但對于新手來說，這些工具的使用往往有一定的門檻，而且在實際開發(fā)中，光靠這些內(nèi)置功能可能還不夠。

舉個具體的場景來說明我們將要覆蓋的內(nèi)容。假設(shè)你正在開發(fā)一個實時監(jiān)控系統(tǒng)，需要從 Kafka 中讀取傳感器數(shù)據(jù)，經(jīng)過一系列過濾和聚合后輸出異常告警。你可能會遇到這樣的問題：為什么某些傳感器的數(shù)據(jù)始終沒有觸發(fā)告警？是數(shù)據(jù)本身有問題，還是過濾條件寫錯了？通過接下來的內(nèi)容，你將學(xué)會如何在程序中插入臨時的打印語句查看數(shù)據(jù)流，如何利用 Flink 的 Side Output 機制輸出中間結(jié)果，甚至如何借助外部工具捕獲和分析數(shù)據(jù)流的細節(jié)。

再比如，性能問題往往是 Flink 開發(fā)中的一大痛點。你的程序可能在測試環(huán)境運行得順風順水，但一到生產(chǎn)環(huán)境就頻頻出現(xiàn)延遲甚至宕機的情況。別急，我們會手把手教你如何通過 Flink 的 Web UI 查看任務(wù)的執(zhí)行計劃和運行時指標，如何分析反壓（Backpressure）的情況，以及如何通過查看中間結(jié)果定位數(shù)據(jù)傾斜的根源。甚至還會分享一些不那么“官方”的小技巧，比如在本地調(diào)試時如何快速模擬大規(guī)模數(shù)據(jù)流，讓你能在問題暴露之前就提前做好準備。

另外，為了幫助你更直觀地理解 Flink 程序的調(diào)試流程，我們還會用表格的形式總結(jié)一些常用的工具和方法，比如：

Flink Web UI	監(jiān)控任務(wù)狀態(tài)、查看執(zhí)行計劃	直觀、實時	需要部署到集群才能使用
print() 方法	快速查看中間結(jié)果	簡單易用	生產(chǎn)環(huán)境可能影響性能
Side Output	分流中間結(jié)果到外部系統(tǒng)	靈活、不影響主流程	配置稍復(fù)雜
Metrics 指標	分析性能瓶頸、反壓情況	量化數(shù)據(jù)、精準定位問題	需要提前定義指標

通過這樣的總結(jié)，你可以快速找到適合自己場景的調(diào)試手段，而不必每次都從頭摸索。

第一章：Flink基礎(chǔ)知識與調(diào)試前的準備

要搞懂Flink的調(diào)試和中間結(jié)果查看，咱們得先從基礎(chǔ)入手，把這玩意兒的來龍去脈弄清楚。Apache Flink是個強大的分布式數(shù)據(jù)處理框架，尤其在流處理領(lǐng)域堪稱一絕。它的核心理念是“流式優(yōu)先”，意思是把所有數(shù)據(jù)都看作是源源不斷的流，哪怕是批處理數(shù)據(jù)，也會被當作有限的流來處理。這種設(shè)計讓Flink在實時處理場景下表現(xiàn)得特別出色，比如日志監(jiān)控、實時推薦、或者金融交易的異常檢測啥的。接下來，咱們就聊聊Flink的基本概念，幫新手快速上手，然后再聊聊調(diào)試前的準備工作，確保后續(xù)操作順風順水。

Flink的核心概念：流處理與批處理

Flink最吸引人的地方在于它能同時搞定流處理和批處理，而且還做得挺漂亮。流處理，簡單來說，就是數(shù)據(jù)一進來就立馬處理，不用等數(shù)據(jù)攢齊了再動手。這對延遲要求極高的場景特別友好，比如實時報警系統(tǒng)，數(shù)據(jù)一有異常就得立刻觸發(fā)通知。而批處理呢，就是傳統(tǒng)的大數(shù)據(jù)處理方式，把數(shù)據(jù)攢成一堆，然后一次性處理完，比如每天凌晨跑個報表啥的。

在Flink的世界里，流處理通過DataStream API來實現(xiàn)，而批處理則用DataSet API。雖然Flink官方在最新版本里已經(jīng)把批處理統(tǒng)一到了DataStream API上（通過設(shè)置執(zhí)行模式為批處理），但老版本或者一些遺留項目里，你可能還會碰到DataSet API。DataStream API的核心是處理無界流，也就是數(shù)據(jù)源源不斷，而DataSet API則是處理有界數(shù)據(jù)，數(shù)據(jù)有頭有尾。

舉個例子，假設(shè)你是個電商平臺的數(shù)據(jù)工程師，想實時監(jiān)控用戶點擊流，看看有沒有異常行為。你可以用DataStream API寫個程序，數(shù)據(jù)一進來就分析，實時輸出結(jié)果。如果是想分析過去一個月的銷售數(shù)據(jù)，那就用批處理模式，讀取歷史數(shù)據(jù)，跑個匯總報告。這兩種方式在Flink里都能無縫切換，挺方便的。

再深入一點，F(xiàn)link還有個很牛的概念叫“事件時間”和“處理時間”。事件時間是數(shù)據(jù)本身攜帶的時間，比如用戶點擊的時間戳；而處理時間是Flink系統(tǒng)處理數(shù)據(jù)時的時間。這倆區(qū)別可大了，尤其在流處理里，數(shù)據(jù)可能會亂序到達，事件時間能幫你正確地處理窗口計算，比如統(tǒng)計過去5分鐘的用戶行為，哪怕數(shù)據(jù)延遲了也能算對。

Flink的核心組件與架構(gòu)

要用好Flink，了解它的架構(gòu)也很重要。Flink的運行時主要分三層：客戶端、JobManager和TaskManager?？蛻舳司褪悄銓懘a的地方，提交任務(wù)給集群。JobManager是老大，負責任務(wù)調(diào)度、資源分配和故障恢復(fù)。TaskManager是干活的工人，具體執(zhí)行計算任務(wù)，處理數(shù)據(jù)流。

Flink的任務(wù)是以有向無環(huán)圖（DAG）的方式組織的。你的代碼會被編譯成一個邏輯計劃，然后優(yōu)化成執(zhí)行計劃，分發(fā)到各個TaskManager上運行。數(shù)據(jù)在算子（Operator）之間流動，每個算子就是一個處理邏輯，比如過濾、聚合啥的。理解這個DAG結(jié)構(gòu)對調(diào)試特別有幫助，因為你能清楚地知道數(shù)據(jù)從哪來，到哪去，中間可能在哪卡住了。

另外，F(xiàn)link還有個重要特性是狀態(tài)管理。流處理里，狀態(tài)就是保存中間計算結(jié)果的東西，比如一個計數(shù)器，或者一個窗口里的聚合值。Flink提供了狀態(tài)后端（State Backend），可以把狀態(tài)存到內(nèi)存、文件系統(tǒng)或者RocksDB里。調(diào)試的時候，狀態(tài)管理是個重點，因為狀態(tài)出錯可能導(dǎo)致計算結(jié)果偏差。

調(diào)試前的環(huán)境搭建

聊完基礎(chǔ)概念，咱們進入正題，調(diào)試前的準備工作可不能馬虎。畢竟，環(huán)境沒搭好，后續(xù)調(diào)試就是瞎折騰。以下是幾個關(guān)鍵步驟，確保你能順利開干。

第一步，安裝Flink。你可以從官網(wǎng)下載二進制包，解壓后直接用，也可以用Docker快速部署。如果你只是本地調(diào)試，建議用Standalone模式，簡單粗暴。下載最新版本（比如1.16.x），解壓后進到bin目錄，跑個`./start-cluster.sh`，集群就起來了。默認會啟動一個JobManager和一個TaskManager，足夠本地測試用了。

如果你用的是IDE，比如IntelliJ IDEA或者Eclipse，記得把Flink的依賴加到項目里。用Maven的話，pom.xml里加個Flink的依賴，

別忘了檢查Scala版本，F(xiàn)link對Scala版本有要求，通常是2.12，配錯了會報一堆莫名其妙的錯誤。

第二步，配置運行環(huán)境。Flink支持本地模式和集群模式，本地模式適合調(diào)試，直接在IDE里跑就行。集群模式適合生產(chǎn)環(huán)境，調(diào)試時可以先在本地驗證邏輯，再丟到集群上跑。配置環(huán)境變量時，記得把Flink的bin目錄加到PATH里，方便命令行操作。

第三步，日志設(shè)置。調(diào)試時，日志是救命稻草，F(xiàn)link的日志默認挺詳細，但有時候你得調(diào)高級別才能看到更多信息。打開`conf/log4j2.properties`文件，把日志級別改成DEBUG，比如：

rootLogger.level = DEBUG

這樣能看到更細的運行信息，比如數(shù)據(jù)流轉(zhuǎn)、算子執(zhí)行啥的。不過，DEBUG模式日志量很大，硬盤空間得夠，不然容易爆盤。另外，F(xiàn)link Web UI也是個好工具，默認端口是8081，打開瀏覽器就能看到任務(wù)狀態(tài)、算子并行度啥的，調(diào)試時可以隨時盯著看。

調(diào)試前的代碼準備

環(huán)境搭好了，代碼也得準備到位。寫Flink程序時，建議先從簡單邏輯入手，比如讀取個文本文件，過濾一下，然后輸出結(jié)果。別一上來就寫復(fù)雜的窗口計算或者狀態(tài)管理，容易把自己繞暈。以下是個簡單的DataStream API例子，讀取socket數(shù)據(jù)，過濾空行，然后打?。?/p>

import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

public class SimpleFilter {
    public static void main(String[] args) throws Exception {
        // 創(chuàng)建執(zhí)行環(huán)境
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        
        // 讀取socket數(shù)據(jù)
        DataStream dataStream = env.socketTextStream("localhost", 9999);
        
        // 過濾空行
        DataStream filteredStream = dataStream.filter(line -> line != null && !line.trim().isEmpty());
        
        // 打印結(jié)果
        filteredStream.print();
        
        // 啟動執(zhí)行
        env.execute("Simple Filter Job");
    }
}

跑這個程序前，先用`nc -lk 9999`開個socket服務(wù)，隨便輸入點數(shù)據(jù)，就能看到過濾后的結(jié)果打印出來。這種小demo適合調(diào)試初期，邏輯簡單，容易定位問題。

另外，寫代碼時，記得加點日志輸出。用或者SLF4J的Logger，關(guān)鍵步驟都打個點，比如數(shù)據(jù)進來時、過濾后啥的。別小看這招，手動日志有時候比系統(tǒng)日志還管用，尤其是在中間結(jié)果驗證時。

調(diào)試前的資源與數(shù)據(jù)準備

最后聊聊資源和數(shù)據(jù)。調(diào)試時，數(shù)據(jù)源得準備好，可以是文件、Kafka、socket啥的，但建議用小數(shù)據(jù)集先跑通邏輯。比如，用個幾十條數(shù)據(jù)的文本文件，跑完后再換成大數(shù)據(jù)量，逐步驗證。如果用Kafka，確保消費者和生產(chǎn)者都配置好，別讓數(shù)據(jù)卡在隊列里。

資源方面，F(xiàn)link對內(nèi)存和CPU要求不低，本地調(diào)試時，電腦內(nèi)存至少8G，不然容易掛掉。如果跑集群，TaskManager的slot數(shù)得合理分配，別一股腦全用上，留點余地給系統(tǒng)。Flink的配置文件`flink-conf.yaml`里可以調(diào)內(nèi)存參數(shù)，比如`taskmanager.memory.process.size: 1024m`，根據(jù)機器情況調(diào)整。

還有個小tips，調(diào)試時可以把并行度設(shè)低點，默認是CPU核數(shù)，但本地跑的話，設(shè)成1或者2就夠了，方便觀察數(shù)據(jù)流轉(zhuǎn)。并行度高了，日志會很亂，不好排查。

常見坑點與規(guī)避

新手用Flink時，容易踩幾個坑，這里提前提醒下。一個是依賴沖突，F(xiàn)link用的是Scala，版本不匹配會報錯，仔細檢查pom.xml里的版本號。另一個是數(shù)據(jù)源配置問題，比如Kafka的bootstrap.servers寫錯了，程序會一直卡著，啥都不輸出，記得提前測試連接。

還有就是時間語義的設(shè)置，默認是處理時間，但很多業(yè)務(wù)需要事件時間，忘了切換會導(dǎo)致窗口計算錯亂。設(shè)置事件時間得用`env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)`，別忘了給數(shù)據(jù)流指定時間戳和watermark。

第二章：Flink程序調(diào)試的常見挑戰(zhàn)與痛點

調(diào)試任何程序都不簡單，但到了 Apache Flink 這種分布式流處理框架，難度更是直線上升。Flink 的設(shè)計初衷是為了處理大規(guī)模、實時的流式數(shù)據(jù)，這就決定了它的運行環(huán)境和邏輯復(fù)雜性遠超普通的單機程序。作為開發(fā)者，面對 Flink 程序調(diào)試時，常常會覺得無從下手，甚至有點抓狂。這章咱們就來聊聊 Flink 程序調(diào)試中那些讓人頭疼的挑戰(zhàn)和痛點，結(jié)合一些實際場景，幫大家把問題掰開了揉碎了看清楚，為后面解決問題打好基礎(chǔ)。

分布式環(huán)境的復(fù)雜性：你甚至不知道問題出在哪

Flink 的核心魅力在于它的分布式架構(gòu)，可以輕松擴展到成百上千的節(jié)點，處理海量數(shù)據(jù)。但這也直接帶來了調(diào)試的第一個大坑：分布式環(huán)境的復(fù)雜性。在單機程序里，調(diào)試時你至少能明確知道代碼跑在哪，日志也能一條條挨個看?？稍?Flink 里，程序被拆分成多個任務(wù)，分布在不同的 TaskManager 上，數(shù)據(jù)在節(jié)點間流動，狀態(tài)在分布式存儲中維護。你想找個問題根源，簡直像大海撈針。

舉個例子，我之前參與一個實時日志監(jiān)控的項目，用 Flink 去處理每秒幾十萬條日志，任務(wù)分配在 5 個節(jié)點上。某天發(fā)現(xiàn)輸出結(jié)果有缺失，數(shù)據(jù)量對不上。直覺告訴我可能是某個算子邏輯有問題，但問題是，哪個節(jié)點上的任務(wù)出了錯？我得先去翻遍每個 TaskManager 的日志，排查是否有異常堆棧信息。結(jié)果發(fā)現(xiàn)，其中一個節(jié)點的網(wǎng)絡(luò)延遲導(dǎo)致數(shù)據(jù)背壓，影響了整個作業(yè)的吞吐量。但這個過程耗費了我整整一天，光是收集和分析日志就讓人崩潰。

更糟糕的是，分布式環(huán)境中，問題往往不是孤立的。一個節(jié)點的故障可能觸發(fā)連鎖反應(yīng)，比如某個 TaskManager 掛掉，F(xiàn)link 的容錯機制會觸發(fā)重啟，但重啟過程中可能導(dǎo)致狀態(tài)不一致，數(shù)據(jù)重復(fù)處理或丟失。這種情況下，你得同時關(guān)注任務(wù)調(diào)度、狀態(tài)恢復(fù)和數(shù)據(jù)一致性，腦子根本不夠用。

實時數(shù)據(jù)流的特性：問題稍縱即逝

Flink 的另一個核心特點是流處理，數(shù)據(jù)是源源不斷流入的。這種實時性雖然是優(yōu)勢，但在調(diào)試時卻是個巨大的挑戰(zhàn)。傳統(tǒng)批處理程序，你可以把數(shù)據(jù)存下來，慢慢跑，錯了就重跑，中間結(jié)果也能隨時打印查看。但在流處理中，數(shù)據(jù)像流水一樣，過去了就沒了，你想復(fù)現(xiàn)問題？對不起，數(shù)據(jù)可能早就不在了。

我記得有一次開發(fā)一個實時交易監(jiān)控系統(tǒng)，用 Flink 去檢測異常訂單。系統(tǒng)上線后，發(fā)現(xiàn)某些異常訂單沒被正確標記。我想調(diào)試一下窗口計算邏輯，看看是不是聚合條件寫錯了。但問題是，數(shù)據(jù)是實時的，等我加上日志或者調(diào)試代碼，異常訂單的數(shù)據(jù)早就流過去了，根本抓不到當時的場景。后來只能通過模擬數(shù)據(jù)重現(xiàn)問題，但模擬數(shù)據(jù)和真實數(shù)據(jù)總有差異，問題還是沒徹底解決。

更頭疼的是，流處理中數(shù)據(jù)的亂序和延遲也很常見。Flink 提供了事件時間和處理時間的概念來應(yīng)對，但這也增加了調(diào)試難度。比如，你可能設(shè)置了一個基于事件時間的滑動窗口，但因為數(shù)據(jù)亂序，窗口觸發(fā)時間和你預(yù)期的不一致，導(dǎo)致結(jié)果異常。排查這種問題時，你得去分析每條數(shù)據(jù)的 timestamp、水位線（watermark）更新，還要確認窗口觸發(fā)邏輯是否正確，簡直是腦力體力雙重考驗。

狀態(tài)管理的隱形坑：狀態(tài)不一致咋整

Flink 的狀態(tài)管理是流處理中一個非常強大的功能，允許你保存中間計算結(jié)果，比如計數(shù)器、聚合值等。但狀態(tài)管理也是調(diào)試中的一大痛點。狀態(tài)通常存儲在 RocksDB 或者內(nèi)存中，分布式環(huán)境下還要保證一致性，一旦狀態(tài)出現(xiàn)問題，程序行為可能完全失控。

舉個實際案例，我們團隊開發(fā)過一個用戶行為分析系統(tǒng)，用 Flink 統(tǒng)計用戶在某個時間段內(nèi)的點擊次數(shù)，狀態(tài)用 ValueState 保存每個用戶的點擊計數(shù)。某次上線后，發(fā)現(xiàn)部分用戶的點擊數(shù)異常高，排查后發(fā)現(xiàn)是狀態(tài)恢復(fù)時出了問題：一次故障重啟后，某個 TaskManager 上的狀態(tài)沒正確加載，導(dǎo)致舊數(shù)據(jù)被重復(fù)累加。這個問題排查起來特別麻煩，因為狀態(tài)是分布式的，你得去對比每個任務(wù)的狀態(tài)快照，還要分析 checkpoint 的完成情況，稍微不注意就漏掉關(guān)鍵線索。

另外，狀態(tài)管理還涉及到性能問題。如果狀態(tài)數(shù)據(jù)量過大，checkpoint 時間會變長，甚至影響作業(yè)的實時性。調(diào)試時，你可能發(fā)現(xiàn)作業(yè)延遲高，但不確定是狀態(tài)膨脹導(dǎo)致的，還是數(shù)據(jù)量突增引起的。得去監(jiān)控狀態(tài)大小、checkpoint 耗時，還要調(diào)整參數(shù)，試錯成本很高。

容錯機制的雙刃劍：重啟帶來的新問題

Flink 的容錯機制是它的亮點之一，通過 checkpoint 和 savepoint，可以在故障時快速恢復(fù)作業(yè)。但這套機制在調(diào)試時也可能變成“敵人”。比如，作業(yè)重啟后，你可能發(fā)現(xiàn)數(shù)據(jù)被重復(fù)處理了，或者某些窗口計算結(jié)果不正確。這往往是因為 checkpoint 恢復(fù)時，數(shù)據(jù)位置或狀態(tài)沒對齊。

有一個案例，做一個實時推薦系統(tǒng)，用 Flink 去計算用戶興趣標簽。系統(tǒng)跑了一段時間后，因為集群資源調(diào)整，觸發(fā)了一次重啟。重啟后發(fā)現(xiàn)部分用戶的興趣標簽完全不對，排查發(fā)現(xiàn)是 checkpoint 恢復(fù)時，某些算子的狀態(tài)沒正確回滾，導(dǎo)致數(shù)據(jù)被重復(fù)計算。這個問題花了我們兩天時間才定位到，最后不得不回滾到之前的 savepoint，重新跑數(shù)據(jù)，損失了不少時間。

容錯機制還會帶來另一個問題：調(diào)試時難以隔離問題。因為 Flink 會自動重啟失敗任務(wù)，你可能還沒來得及看清錯誤日志，任務(wù)就已經(jīng)重跑了，問題被“掩蓋”。這種情況下，你得手動暫停作業(yè)，或者調(diào)整容錯策略，才能抓住問題的尾巴。

日志和監(jiān)控的不足：信息碎片化

調(diào)試離不開日志和監(jiān)控，但 Flink 的日志系統(tǒng)在分布式環(huán)境下顯得有些力不從心。每個 TaskManager 都有自己的日志文件，信息分散在不同節(jié)點，想完整拼湊出問題全貌，得手動收集和匯總。更別提日志量巨大，動輒幾十 GB，grep 都 grep 不動。

監(jiān)控方面，雖然 Flink 提供了 Web UI，可以查看任務(wù)狀態(tài)、背壓情況等，但這些指標往往不夠細致。比如，UI 上顯示某個算子有背壓，但具體原因是網(wǎng)絡(luò)延遲、CPU 瓶頸還是狀態(tài)寫入慢，你還得自己去猜。缺乏詳細的診斷工具，調(diào)試效率大打折扣。

舉個例子，我們之前開發(fā)一個流式 ETL 任務(wù)，UI 上顯示某個算子吞吐量很低，背壓嚴重。我一開始以為是數(shù)據(jù)傾斜導(dǎo)致的，花了半天優(yōu)化分區(qū)邏輯，結(jié)果沒啥效果。后來翻日志才發(fā)現(xiàn)，是下游 Kafka 寫滿導(dǎo)致的反饋壓力。這個過程完全可以避免，如果監(jiān)控能直接指出背壓來源就好了。

一個簡單的代碼案例：窗口計算調(diào)試的痛點

為了讓大家更直觀感受調(diào)試的難度，下面用一個簡單的代碼片段來說明窗口計算中的問題。假設(shè)我們要統(tǒng)計每 5 分鐘內(nèi)用戶的登錄次數(shù)，用的是事件時間和滑動窗口：

DataStream loginStream = env.addSource(new LoginSource());
loginStream
    .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor(Time.minutes(1)) {
        @Override
        public long extractTimestamp(UserLogin element) {
            return element.getLoginTime();
        }
    })
    .keyBy(UserLogin::getUserId)
    .window(SlidingEventTimeWindows.of(Time.minutes(5), Time.minutes(1)))
    .aggregate(new LoginCountAggregator())
    .print();

代碼看起來很簡單，但實際跑起來可能一堆問題。比如，數(shù)據(jù)亂序?qū)е滤痪€更新慢，窗口遲遲不觸發(fā)，你得去加日志查看每條數(shù)據(jù)的 timestamp 和當前水位線，才能確認問題。但日志一多，信息就淹沒了，根本看不過來。再比如，某個用戶的數(shù)據(jù)量特別大，導(dǎo)致 keyBy 后數(shù)據(jù)傾斜，算子背壓，你還得去調(diào)整并行度或者加 rebalance，試錯成本很高。

調(diào)試痛點的總結(jié)與反思

聊了這么多，F(xiàn)link 程序調(diào)試的挑戰(zhàn)主要集中在分布式環(huán)境、實時數(shù)據(jù)流、狀態(tài)管理、容錯機制和日志監(jiān)控這幾個方面。這些問題不是孤立的，往往相互交織，一個小問題可能引發(fā)一連串的連鎖反應(yīng)。作為開發(fā)者，面對這些痛點時，常常會感到無力，甚至懷疑自己的能力。但其實，這些問題并不是無解的，關(guān)鍵在于找到合適的工具和方法，系統(tǒng)化地去定位和解決問題。

接下來，我們會深入探討如何通過日志、監(jiān)控和調(diào)試工具來應(yīng)對這些挑戰(zhàn)。畢竟，了解問題只是第一步，真正解決問題才是目標。希望通過以上的分析，大家能對 Flink 調(diào)試的難度有個更清晰的認識，也為后續(xù)的學(xué)習(xí)和實踐做好心理準備。

第三章：Flink調(diào)試工具與基本方法

調(diào)試一個分布式流處理系統(tǒng)像Apache Flink這樣的家伙，絕對不是一件輕松的事兒。分布式環(huán)境、實時數(shù)據(jù)流、狀態(tài)管理這些特性，稍微一個不注意就能讓你頭皮發(fā)麻。不過好在Flink本身提供了一些相當實用的工具和方法，能幫我們快速定位問題、查看中間狀態(tài)，甚至在問題發(fā)生時抓住關(guān)鍵線索。今天咱們就來聊聊Flink自帶的調(diào)試工具和一些基礎(chǔ)的調(diào)試技巧，帶你一步步搞定那些讓人抓狂的問題。

一、日志輸出：調(diào)試的第一道防線

說到調(diào)試，最直觀也最基礎(chǔ)的方式肯定是看日志。Flink的日志系統(tǒng)基于SLF4J，底層默認用的是Log4j2實現(xiàn)（當然你也可以切換成Logback啥的）。日志可以說是我們了解程序運行狀態(tài)的第一手資料，尤其在分布式環(huán)境下，問題可能藏在某個節(jié)點的某個角落里，沒有日志你基本就是兩眼一抹黑。

Flink的日志通常會記錄在集群的各個節(jié)點上，包括JobManager和TaskManager的運行情況。你可以在Flink的配置文件`flink-conf.yaml`中設(shè)置日志級別，默認是，但調(diào)試的時候建議調(diào)成，這樣能看到更詳細的信息。配置文件里一般會有類似這樣的設(shè)置：

log4j.logger.org.apache.flink=DEBUG

調(diào)整完日志級別后，重啟集群，日志會輸出到指定的文件路徑（默認在目錄下）。如果你用的是YARN或Kubernetes部署，日志可能會分散在不同節(jié)點上，這時候可以通過Flink的Web UI或者YARN的日志聚合功能來統(tǒng)一查看。

那么日志怎么幫我們定位問題呢？舉個例子，假設(shè)你的Flink任務(wù)突然掛了，報了個，但你壓根不知道是哪個算子出的問題。這時候，打開TaskManager的日志，搜索或者關(guān)鍵字，通常能找到具體的堆棧信息，指向某個具體的類和代碼行。比如下面這段日志：

2023-10-12 14:23:45,123 ERROR org.apache.flink.streaming.runtime.tasks.StreamTask - Error in StreamTaskjava.lang.NullPointerException: Cannot invoke method on null object    at com.example.MyMapFunction.map(MyMapFunction.java:23)    ...

看到這里，你大概就能猜到是這個自定義算子的方法里有個空指針問題。接著去代碼里檢查一下第23行，八成是某個輸入數(shù)據(jù)為空沒做判空處理。像這種問題，日志基本能幫你快速鎖定范圍。

當然，日志也不是萬能的，分布式環(huán)境下日志量巨大，翻起來跟大海撈針差不多。所以建議你在寫代碼時主動加一些有意義的日志，比如在關(guān)鍵算子前后輸出數(shù)據(jù)的條數(shù)或者關(guān)鍵字段值。Flink支持在代碼里用`LOG.info()`輸出自定義日志，比如：

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

public class MyMapFunction implements MapFunction {
    private static final Logger LOG = LoggerFactory.getLogger(MyMapFunction.class);

    @Override
    public String map(String value) throws Exception {
        LOG.info("Processing input: {}", value);
        // 業(yè)務(wù)邏輯
        return value.toUpperCase();
    }
}

這種自定義日志能幫你在海量日志中快速找到自己關(guān)心的信息，省去不少翻找的時間。

二、Flink Web UI：任務(wù)狀態(tài)一目了然

除了日志，F(xiàn)link還提供了一個非常好用的可視化工具——Web UI。這個界面可以說是調(diào)試和監(jiān)控任務(wù)的得力助手，尤其適合快速查看任務(wù)的整體狀態(tài)。

第四章：查看中間結(jié)果的技術(shù)與實現(xiàn)

調(diào)試Flink程序的時候，查看中間結(jié)果往往是關(guān)鍵的一步。畢竟，數(shù)據(jù)流處理的核心就是數(shù)據(jù)在各個算子之間的流動，如果中間某個環(huán)節(jié)出了問題，或者你單純想確認數(shù)據(jù)是否符合預(yù)期，直接看到這些流動中的數(shù)據(jù)就顯得尤為重要。Flink作為一個分布式流處理框架，本身提供了一些工具和方法來幫助我們窺探這些中間狀態(tài)，同時我們也可以通過一些自定義的方式來實現(xiàn)類似的功能。這章內(nèi)容會詳細聊聊幾種常見的查看中間結(jié)果的技術(shù)，帶上代碼示例，分析它們的適用場景和潛在的坑點，力求讓你能挑到最適合自己需求的方案。

1. 使用print()方法：最簡單直接的輸出

說到查看中間結(jié)果，最直白的方式莫過于直接把數(shù)據(jù)打印出來。Flink的DataStream API提供了`print()`方法，可以直接將流中的數(shù)據(jù)輸出到標準輸出（通常是控制臺）。這種方式特別適合快速調(diào)試或者小規(guī)模數(shù)據(jù)測試。

操作起來很簡單，假設(shè)你有一個DataStream流，里面是處理后的用戶點擊事件數(shù)據(jù)，你可以直接調(diào)用`print()`：

DataStream clickStream = ... // 你的數(shù)據(jù)流clickStream.print();

運行程序后，數(shù)據(jù)會直

剩余60%內(nèi)容，訂閱專欄后可繼續(xù)查看/也可單篇購買

大數(shù)據(jù)從入門到精通-最全面試題文章被收錄于專欄

17年+碼農(nóng)經(jīng)歷了很多次面試，多次作為面試官面試別人，多次大數(shù)據(jù)面試和面試別人，深知哪些面試題是會被經(jīng)常問到。在多家企業(yè)從0到1開發(fā)過離線數(shù)倉實時數(shù)倉等多個大型項目，詳細介紹項目架構(gòu)等企業(yè)內(nèi)部秘不外傳的資料，介紹踩過的坑和開發(fā)干貨，分享多個拿來即用的大數(shù)據(jù)ETL工具，讓小白用戶快速入門并精通，指導(dǎo)如何入職后快速上手。計劃更新內(nèi)容100篇以上，包括一些企業(yè)內(nèi)部秘不外宣的干貨，歡迎訂閱！