Google Dataflow / Dataprep Shuffle鍵太大（INVALID_ARGUMENT）

Question

我已嘗試多次運行此作業，並且每次遇到許多與配額相關的警告（並且每次請求增加）但最終它總是失敗並出現此錯誤消息，我認為這是由我的數據集引起的很大，但我不確定。 Dataprep應該能夠處理任何規模的ETL作業，這甚至不是那么大的工作。 無論如何，這是錯誤消息，任何幫助將不勝感激：

java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: java.io.IOException: INVALID_ARGUMENT: Shuffle key too large:2001941 > 1572864
at com.google.cloud.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:182)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner$1.outputWindowedValue(GroupAlsoByWindowFnRunner.java:104)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:121)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:53)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner.invokeProcessElement(GroupAlsoByWindowFnRunner.java:117)
...

完整的錯誤消息可以在這里找到： https ： //pastebin.com/raw/QTtmm5D2

我已經獲得了幾個配額增加，雖然這使得工作繼續比之前的父親，它仍然以相同的錯誤結束（雖然隨機密鑰大小更大。）現在似乎沒有因配額而撞牆相關問題。

任何缺乏放棄Dataprep並返回地圖的想法都會減少？

Answer 1

這看起來更像是一個錯誤，其中單個列中的單個值太大，而不是數據集太大。 你有這么久的值列嗎？ （顯然這里約2MB）

也就是說，我認為這應該被報告為Dataprep的一個錯誤。 看起來他們按列值執行分組，並且他們可能應該在分組之前將它們修剪為更小的尺寸。 我不知道他們是否關注StackOverflow。

Google Dataflow / Dataprep Shuffle鍵太大（INVALID_ARGUMENT）

問題描述

1 個解決方案

解決方案1
3 已采納 2018-03-04 22:36:32

Google Dataflow / Dataprep Shuffle鍵太大（INVALID_ARGUMENT）

問題描述

1 個解決方案

解決方案1 3 已采納 2018-03-04 22:36:32

解決方案1
3 已采納 2018-03-04 22:36:32