[英]How to index HDFS pdf files in Solr?
hadoop jar jobjar / hadoop / hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close = true -DcsvFieldMapping = 0 = id,1 = text -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c hdp1 -i /user/solr/data/csv/mydata.csv -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http:// localhost:8983 / solr
我已经尝试在命令中使用上面的代码来执行PDF文件,但是我得到了不希望的输出!
com.lucidworks.hadoop.ingest.CSVIngestMapper
用于独家CSV文件,因此“ PDF文件”是否与此类似? 期待您的协助。
您应该使用DirectoryIngestMapper:
hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar
com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true
com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i
/user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s
http://localhost:8983/solr
假设/user/solr/data/pdf/*.pdf
是您的pdf文件所在的位置。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.