Solr索引性能

Question

我们在Solr批处理索引中遇到一些性能问题：我们有一个由4个工作人员组成的集群，每个集群都配备32个核心和256GB的RAM。 YARN配置为使用100个vCore和785.05GB内存。 HDFS存储由通过10Gb接口连接的EMC Isilon系统管理。 我们的集群运行CDH 5.8.0，具有Solr 4.10.3的功能，并且已Kerberized。

在当前设置下，谈到压缩数据，我们可以通过使用MapReduce作业来索引大约每天25GB和每月500GB。 其中一些作业每天运行，需要花费将近12个小时才能索引15 GB的压缩数据。 特别是，MorphlineMapper作业持续约5个小时，TreeMergeMapper持续约6个小时。

这些表演正常吗？ 您能否建议我们进行一些调整，以改善我们的索引编制性能？

Answer 1

我们正在使用MapReduceIndexerTool，并且没有网络问题。 我们正在从HDFS读取压缩文件，然后在我们的吗啉中解压缩它们。 这是我们运行脚本的方式：

cmd_hdp=$(
HADOOP_OPTS="-Djava.security.auth.login.config=jaas.conf" hadoop --config /etc/hadoop/conf.cloudera.yarn \
jar /opt/cloudera/parcels/CDH/lib/solr/contrib/mr/search-mr-*-job.jar \
org.apache.solr.hadoop.MapReduceIndexerTool \
-D morphlineVariable.ZK_HOST=hostname1:2181/solr \
-D morphlineVariable.COLLECTION=my_collection \
-D mapreduce.map.memory.mb=8192 \
-D mapred.child.java.opts=-Xmx4096m \
-D mapreduce.reduce.java.opts=-Xmx4096m \
-D mapreduce.reduce.memory.mb=8192 \
--output-dir hdfs://isilonhostname:8020/tmp/my_tmp_dir \
--morphline-file morphlines/my_morphline.conf \
--log4j log4j.properties \
--go-live \
--collection my_collection \
--zk-host hostname1:2181/solr \
hdfs://isilonhostname:8020/my_input_dir/
)

MorphlineMapper阶段占用所有可用资源，TreeMergeMapper仅占用几个容器。

我们暂时不需要查询，只需要索引历史数据即可。 我们想知道是否有一种方法可以加快索引编制时间，然后在索引编制完成后优化集合以进行搜索。

Solr索引性能

问题描述

1 个解决方案

解决方案1
0 2017-08-23 09:12:02

Solr索引性能

问题描述

1 个解决方案

解决方案1 0 2017-08-23 09:12:02

解决方案1
0 2017-08-23 09:12:02