簡體   English   中英

具有相同密鑰 apache beam 的多個 CoGroupByKey

[英]Multiple CoGroupByKey with same key apache beam

我有一種情況需要將管道中的主數據流 (1.5TB) 加入 2 個不同的數據集(4.92GB 和 17.35GB)。 我用來為兩者執行 CoGroupByKey 的密鑰是相同的。 有沒有辦法避免在第一個完成后重新洗牌左側? 目前我只是將輸出保留為 KV>。 這似乎比在第一次連接后分段發射每個元素要好,但第二個 groupByKey 似乎仍然比我預期的要花費更長的時間。 我打算開始研究拉開 CoGroupByKey 看看我是否可以忽略對一側的分組,但我真的覺得此時不下降到那個級別更安全。

這是在第一次加入后保持 Iterables 分組之前

在處理主輸入時,您是否考慮過將較小的數據集作為View.asMap()View.asMultimap()側輸入進行訪問? Dataflow runner 優化了 map 和 multimap 側輸入的實現,可以有效地執行鍵查找,而無需將整個數據加載到內存中。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM