繁体   English   中英

Google Dataflow / Dataprep Shuffle键太大(INVALID_ARGUMENT)

[英]Google Dataflow / Dataprep Shuffle key too large (INVALID_ARGUMENT)

我已尝试多次运行此作业,并且每次遇到许多与配额相关的警告(并且每次请求增加)但最终它总是失败并出现此错误消息,我认为这是由我的数据集引起的很大,但我不确定。 Dataprep应该能够处理任何规模的ETL作业,这甚至不是那么大的工作。 无论如何,这是错误消息,任何帮助将不胜感激:

java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: java.io.IOException: INVALID_ARGUMENT: Shuffle key too large:2001941 > 1572864
at com.google.cloud.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:182)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner$1.outputWindowedValue(GroupAlsoByWindowFnRunner.java:104)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:121)
at com.google.cloud.dataflow.worker.util.BatchGroupAlsoByWindowViaIteratorsFn.processElement(BatchGroupAlsoByWindowViaIteratorsFn.java:53)
at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner.invokeProcessElement(GroupAlsoByWindowFnRunner.java:117)
...

完整的错误消息可以在这里找到: https//pastebin.com/raw/QTtmm5D2

我已经获得了几个配额增加,虽然这使得工作继续比之前的父亲,它仍然以相同的错误结束(虽然随机密钥大小更大。)现在似乎没有因配额而撞墙相关问题。

任何缺乏放弃Dataprep并返回地图的想法都会减少?

这看起来更像是一个错误,其中单个列中的单个值太大,而不是数据集太大。 你有这么久的值列吗? (显然这里约2MB)

也就是说,我认为这应该被报告为Dataprep的一个错误。 看起来他们按列值执行分组,并且他们可能应该在分组之前将它们修剪为更小的尺寸。 我不知道他们是否关注StackOverflow。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM