簡體   English   中英

在 Beam 管道中組織 ptransform 的正確方法是什么?

[英]What is the correct way to organize the ptransforms in a beam pipeline?

我正在開發一種從 Kafka 讀取數據的管道。

源kafka主題流量比較大,每秒插入10k消息,每條消息200kB左右

我需要過濾數據以應用我需要的轉換,但我確定是否存在我需要應用過濾器和 window 函數的順序。

read->window->filter->transform->write

會比

read->filter->window->transform->write

或者兩種選擇的性能相同?

我知道 samza 只是一個 model,它只告訴什么而不是如何,跑步者優化了管道,但我只是想確保我做對了

謝謝

如果有實質性的過濾,過濾后的窗口技術上會減少執行的工作量,盡管節省的工作量足夠便宜,我懷疑它會產生可衡量的差異。 (據推測,跑步者可能會注意到過濾器沒有觀察到分配的 window 並在這種情況下將其提升,但如前所述,尚不清楚這里是否真的可以節省開支......)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM