簡體   English   中英

如何在Solr中索引HDFS pdf文件?

[英]How to index HDFS pdf files in Solr?

hadoop jar jobjar / hadoop / hadoop-lws-job-1.2.0-0-0.jar com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close = true -DcsvFieldMapping = 0 = id,1 = text -cls com.lucidworks.hadoop.ingest.CSVIngestMapper -c hdp1 -i /user/solr/data/csv/mydata.csv -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s http:// localhost:8983 / solr

我已經嘗試在命令中使用上面的代碼來執行PDF文件,但是我得到了不希望的輸出!

com.lucidworks.hadoop.ingest.CSVIngestMapper用於獨家CSV文件,因此“ PDF文件”是否與此類似? 期待您的協助。

您應該使用DirectoryIngestMapper:

hadoop jar jobjar/hadoop/hadoop-lws-job-1.2.0-0-0.jar 
com.lucidworks.hadoop.ingest.IngestJob -Dlww.commit.on.close=true    
com.lucidworks.hadoop.ingest.DirectoryIngestMapper -c hdp1 -i 
/user/solr/data/pdf/*.pdf -of com.lucidworks.hadoop.io.LWMapRedOutputFormat -s 
http://localhost:8983/solr

假設/user/solr/data/pdf/*.pdf是您的pdf文件所在的位置。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM