繁体   English   中英

小文本数据上的Spark OutOfMemory错误

[英]Spark OutOfMemory error on small text data

我正在努力实现一种算法,并在本地节点上的Spark(Scala接口)中的中型数据上对其进行测试。 我从非常简单的处理开始,尽管我非常确定数据不足以使此类错误合理,但我正在获取java.lang.OutOfMemoryError: Java heap space 这是最小的破坏代码:

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkContext, SparkConf}

val conf = new SparkConf()
  .setMaster("local[4]")
  .setAppName("AdultProcessing")
  .set("spark.executor.memory", "1g")
val sc = new SparkContext(conf)

val dataFile = "data/census/processed/census-income.data"
val censusData: RDD[String] = sc.textFile(dataFile, 4)
val censusDataPreprocessed = censusData.map { row =>
  val separators: Array[Char] = ":,".toCharArray
  row.split(separators)
}

val res = censusDataPreprocessed.collect()

我使用的数据是未经压缩的经典人口普查数据 这是100MB,近20万行。 我的机器上的内存量应足够:

nietaki@xebab$ free -tm
             total       used       free     shared    buffers     cached
Mem:         15495      12565       2929          0        645       5608
-/+ buffers/cache:       6311       9183
Swap:         3858          0       3858
Total:       19354      12566       6788

每个虚拟节点的数据文件块都小于30MB,而我正在执行的唯一处理是将行字符串拆分为50个以下项的数组。 我简直不敢相信此操作会耗尽内存。

在尝试调试情况时,我发现将节点数减少到1,或者将SparkContext.textFile()minPartitions参数从4增加到例如8可以解决这种情况,但这并不能解决我的问题任何明智的。

我正在使用Spark 1.0.0和Scala 2.10.4。 我直接从sbt启动项目: sbt run -Xmx2g -Xms2g

JVM内存不足。 Spark在JVM上运行。

我建议您使用探查器检查堆,以找出记录所使用的实际内存。 在我的情况下,它们的大小是“静止”大小的2倍,并且它们是原始类型和字符串的组合。

在您的情况下,字符串尤其容易吃。 "" (空字符串)的长度约为40个字节-较长的字符串可以抵消结构的成本。 [1]

将先前资源中的表应用于数据:

line: String = 73, Not in universe, 0, 0, High school graduate, 0, Not in universe, Widowed, Not in universe or children, Not in universe, White, All other, Female, Not in universe, Not in universe, Not in labor force, 0, 0, 0, Nonfiler, Not in universe, Not in universe, Other Rel 18+ ever marr not in subfamily, Other relative of householder, 1700.09, ?, ?, ?, Not in universe under 1 year old, ?, 0, Not in universe, United-States, United-States, United-States, Native- Born in the United States, 0, Not in universe, 2, 0, 95, - 50000.

line.size
Int = 523
def size(s:String) = s.size/4*8+40
line.split(",.").map(w=>size(w)).sum
Int = 2432

因此,由于所有这些小字符串,您的内存中数据大约是“静态”大小的5倍。 尽管如此,该数据的200k行仍约占500MB。 这可能表明您的执行器以默认值512MB运行。 尝试将“ spark.executor.memory”设置为更高的值,但也要考虑大于8Gb的堆大小,以方便使用Spark。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM