[英]FixedWindow apparently not firing in streaming python beam pipeline
[英]What is the correct way to organize the ptransforms in a beam pipeline?
我正在開發一種從 Kafka 讀取數據的管道。
源kafka主題流量比較大,每秒插入10k消息,每條消息200kB左右
我需要過濾數據以應用我需要的轉換,但我確定是否存在我需要應用過濾器和 window 函數的順序。
read->window->filter->transform->write
會比
read->filter->window->transform->write
或者兩種選擇的性能相同?
我知道 samza 只是一個 model,它只告訴什么而不是如何,跑步者優化了管道,但我只是想確保我做對了
謝謝
如果有實質性的過濾,過濾后的窗口技術上會減少執行的工作量,盡管節省的工作量足夠便宜,我懷疑它會產生可衡量的差異。 (據推測,跑步者可能會注意到過濾器沒有觀察到分配的 window 並在這種情況下將其提升,但如前所述,尚不清楚這里是否真的可以節省開支......)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.