簡體   English   中英

Google Dataflow / Dataprep Shuffle鍵太大(INVALID_ARGUMENT)

[英]Google Dataflow / Dataprep Shuffle key too large (INVALID_ARGUMENT)

我已嘗試多次運行此作業,並且每次遇到許多與配額相關的警告(並且每次請求增加)但最終它總是失敗並出現此錯誤消息,我認為這是由我的數據集引起的很大,但我不確定。 Dataprep應該能夠處理任何規模的ETL作業,這甚至不是那么大的工作。 無論如何,這是錯誤消息,任何幫助將不勝感激:

java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: java.io.IOException: INVALID_ARGUMENT: Shuffle key too large:2001941 > 1572864
at com.google.cloud.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:182)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner$1.outputWindowedValue(GroupAlsoByWindowFnRunner.java:104)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:121)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:53)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner.invokeProcessElement(GroupAlsoByWindowFnRunner.java:117)
...

完整的錯誤消息可以在這里找到: https//pastebin.com/raw/QTtmm5D2

我已經獲得了幾個配額增加,雖然這使得工作繼續比之前的父親,它仍然以相同的錯誤結束(雖然隨機密鑰大小更大。)現在似乎沒有因配額而撞牆相關問題。

任何缺乏放棄Dataprep並返回地圖的想法都會減少?

這看起來更像是一個錯誤,其中單個列中的單個值太大,而不是數據集太大。 你有這么久的值列嗎? (顯然這里約2MB)

也就是說,我認為這應該被報告為Dataprep的一個錯誤。 看起來他們按列值執行分組,並且他們可能應該在分組之前將它們修剪為更小的尺寸。 我不知道他們是否關注StackOverflow。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM