繁体   English   中英

Nutch hadoop map 减少 java 堆空间 outOfMemory

[英]Nutch hadoop map reduce java heap space outOfMemory

我正在运行 Nutch 1.16、Hadoop 2.83、Solr 8.5.1 爬虫设置,该爬虫设置运行良好,索引页数可达几百万。 然后我在 MapReduce 作业期间遇到了 Java 堆空间问题,我似乎找不到正确的方法来增加该堆空间。 我努力了:

  1. Passing -D mapreduce.map.memory.mb=24608 -D mapreduce.map.java.opts=-Xmx24096m when starting nutch crawl.
  2. 编辑 NUTCH_HOME/bin/crawl commonOptions mapred.child.java.opts 到-Xmx16000m
  3. 将 HADOOP_HOME/etc/hadoop/mapred-site.xml mapred.child.java.opts 设置为-Xmx160000m -XX:+UseConcMarkSweepGC
  4. 将所说的 mapred-site.xml 复制到我的 nutch/conf 文件夹中

这些似乎都没有改变任何东西。 我在爬取过程中的同一点遇到了相同的堆空间错误。 我尝试将 fetcher 线程从 25 个减少回 12 个,并在获取时关闭解析。 什么都没有改变,我没有想法。 我有 64GB RAM,所以这真的不是问题。 请帮忙;)

编辑:将文件名固定为 mapred-site.xml

  1. 通过-D...

还需要使用“mapreduce.reduce.memory.mb”和“mapreduce.reduce.java.opts”为reduce任务设置堆空间。 请注意,脚本 bin/crawl 最近在这方面进行了改进,请参阅NUTCH-2501和最近的bin/crawl 脚本

3./4. 设置/复制 hadoop-site.xml

这不应该在“mapred-site.xml”中设置吗?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM