当所有内存设置都设置为巨大时，rdd.collect（）中的java.lang.OutOfMemoryError

Question

我使用spark-submit运行以下python脚本，

r = rdd.map(list).groupBy(lambda x: x[0]).map(lambda x: x[1]).map(list)
r_labeled = r.map(f_0).flatMap(f_1)
r_labeled.map(lambda x: x[3]).collect()

它会收到java.lang.OutOfMemoryError，特别是在最后一行的collect（）操作上，

java.lang.OutOfMemoryError
    at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
    at org.apache.spark.util.ByteBufferOutputStream.write(ByteBufferOutputStream.scala:41)
    at java.io.ObjectOutputStream$BlockDataOutputStream.drain(ObjectOutputStream.java:1877)
    at java.io.ObjectOutputStream$BlockDataOutputStream.setBlockDataMode(ObjectOutputStream.java:1786)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1189)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:43)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:383)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
17/11/08 08:27:31 ERROR SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[Executor task launch worker for task 6,5,main]
java.lang.OutOfMemoryError
    at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
    at org.apache.spark.util.ByteBufferOutputStream.write(ByteBufferOutputStream.scala:41)
    at java.io.ObjectOutputStream$BlockDataOutputStream.drain(ObjectOutputStream.java:1877)
    at java.io.ObjectOutputStream$BlockDataOutputStream.setBlockDataMode(ObjectOutputStream.java:1786)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1189)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:43)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:383)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
17/11/08 08:27:31 INFO SparkContext: Invoking stop() from shutdown hook
17/11/08 08:27:31 WARN TaskSetManager: Lost task 0.0 in stage 9.0 (TID 6, localhost, executor driver): java.lang.OutOfMemoryError
    at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
    at org.apache.spark.util.ByteBufferOutputStream.write(ByteBufferOutputStream.scala:41)
    at java.io.ObjectOutputStream$BlockDataOutputStream.drain(ObjectOutputStream.java:1877)
    at java.io.ObjectOutputStream$BlockDataOutputStream.setBlockDataMode(ObjectOutputStream.java:1786)
    at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1189)
    at java.io.ObjectOutputStream.writeObject(ObjectOutputStream.java:348)
    at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:43)
    at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:100)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:383)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

该消息显示OutOfMemoryError，但没有其他内容。 是关于堆，垃圾回收还是其他？ 我不知道。

无论如何，我试图将有关内存的所有内容配置为巨大的价值。

spark.driver.maxResultSize = 0 # no limit
spark.driver.memory = 150g
spark.executor.memory = 150g
spark.worker.memory = 150g

（并且服务器具有157g的物理内存。）

仍然存在相同的错误。

然后我稍微减少了输入数据，每次代码都能完美传递。 实际上，collect（）获得的数据约为1.8g，远小于物理15g内存。

现在，我确定该错误与代码无关，并且物理内存没有限制。 就像输入数据的大小有一个阈值，传递该阈值将导致内存不足错误。

那么，如何解除这个阈值，以便在没有内存错误的情况下处理更大的输入数据？ 有设置吗？

谢谢。

==========跟进============

根据这个，这个错误是与Java序列化和MAP转型的大对象。 我在代码中确实使用了大对象。 想知道如何使Java Serializer容纳大对象。

Answer 1

首先，只有在调用collect方法时才会遇到问题，这才有意义。 Spark很懒。 因此，在将数据发送到驱动程序（收集，减少，计数...）或磁盘（写入，保存...）之前，它什么都不做。

然后，您似乎在执行程序上遇到了内存不足的异常。 我从堆栈跟踪中了解到，您的groupBy正在创建一个数组，该数组的大小超过了已定义的容量（根据此容量，Integer.MAX_VALUE-5）。 给定密钥在您的数据集中是否可能出现超过20亿次的出现？

无论如何，我不确定您要做什么，但是如果可以的话，请尝试通过减少操作来替换groupBy，以减少对内存的压力。

最终，尽管每个人只有150克，但您给了驾驶员和每个执行者150克。 我不知道您的情况是谁得到的。 尝试合理地分享您的记忆，并告诉我们会发生什么。

希望这可以帮助。

当所有内存设置都设置为巨大时，rdd.collect（）中的java.lang.OutOfMemoryError

问题描述

1 个解决方案

解决方案1
0 2017-11-07 20:11:23

当所有内存设置都设置为巨大时，rdd.collect（）中的java.lang.OutOfMemoryError

问题描述

1 个解决方案

解决方案1 0 2017-11-07 20:11:23

解决方案1
0 2017-11-07 20:11:23