在 Beam 管道中組織 ptransform 的正確方法是什么？

Question

我正在開發一種從 Kafka 讀取數據的管道。

源kafka主題流量比較大，每秒插入10k消息，每條消息200kB左右

我需要過濾數據以應用我需要的轉換，但我確定是否存在我需要應用過濾器和 window 函數的順序。

read->window->filter->transform->write

會比

read->filter->window->transform->write

或者兩種選擇的性能相同？

我知道 samza 只是一個 model，它只告訴什么而不是如何，跑步者優化了管道，但我只是想確保我做對了

謝謝

Answer 1

如果有實質性的過濾，過濾后的窗口技術上會減少執行的工作量，盡管節省的工作量足夠便宜，我懷疑它會產生可衡量的差異。 （據推測，跑步者可能會注意到過濾器沒有觀察到分配的 window 並在這種情況下將其提升，但如前所述，尚不清楚這里是否真的可以節省開支......）