[英]Google Dataflow / Dataprep Shuffle key too large (INVALID_ARGUMENT)
我已嘗試多次運行此作業,並且每次遇到許多與配額相關的警告(並且每次請求增加)但最終它總是失敗並出現此錯誤消息,我認為這是由我的數據集引起的很大,但我不確定。 Dataprep應該能夠處理任何規模的ETL作業,這甚至不是那么大的工作。 無論如何,這是錯誤消息,任何幫助將不勝感激:
java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: java.io.IOException: INVALID_ARGUMENT: Shuffle key too large:2001941 > 1572864
at com.google.cloud.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:182)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner$1.outputWindowedValue(GroupAlsoByWindowFnRunner.java:104)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:121)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:53)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner.invokeProcessElement(GroupAlsoByWindowFnRunner.java:117)
...
完整的錯誤消息可以在這里找到: https : //pastebin.com/raw/QTtmm5D2
我已經獲得了幾個配額增加,雖然這使得工作繼續比之前的父親,它仍然以相同的錯誤結束(雖然隨機密鑰大小更大。)現在似乎沒有因配額而撞牆相關問題。
任何缺乏放棄Dataprep並返回地圖的想法都會減少?
這看起來更像是一個錯誤,其中單個列中的單個值太大,而不是數據集太大。 你有這么久的值列嗎? (顯然這里約2MB)
也就是說,我認為這應該被報告為Dataprep的一個錯誤。 看起來他們按列值執行分組,並且他們可能應該在分組之前將它們修剪為更小的尺寸。 我不知道他們是否關注StackOverflow。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.