簡體 English 中英

如何將PDF文件從HDFS索引到Solr

[英]How to index pdf files from HDFS to Solr

原文 2016-05-03 05:25:05 9 1 hadoop/ pdf/ solr/ hdfs

我是Apache solr的新手，在我的項目中有一個要求，我必須將pdf文檔從HDFS上傳到Solr，然后從那里我要使用Solr rest API。 我的本地文件系統中總共有40k pdf文檔，首先我將它們推送到HDFS。 但是從那里到Solr我真的不知道

另一件事是在索引到Solr時，我想從pdf文檔中讀取一些數據，並將該數據也索引到Solr中。 示例：我想要Extraxt候選名稱，pdf文檔中的候選位置，並將其推送到看起來像的solr模式中，

name: "candidate_name"
location: "candidate_location"
document: "pdf_document"

我通過互聯網搜索了此內容，但找不到正確的解決方案

1 個解決方案

嘗試使用https://github.com/lucidworks/hadoop-solr

您應該嘗試使用DirectoryIngestMapper，它具有Tika解析功能，但是您必須對其進行自定義。

如何在Solr中索引HDFS pdf文件？

[英]How to index HDFS pdf files in Solr?

MapReduceIndexerTool-在Solr中索引HDFS文件的最佳方法？

[英]MapReduceIndexerTool - Best way to index HDFS files in Solr?

如何使用Solr將文件發送到HDFS

[英]How to send files to HDFS using Solr

如何將文件從HDFS復制到遠程HDFS

[英]How to copy files from HDFS to remote HDFS

如何從 HDFS 中刪除文件？

[英]How to delete files from the HDFS?

在HDFS-Solr中存儲索引文件

[英]Storing Index file in HDFS- Solr

使用Apache Solr導入或索引Hive / HDFS數據

[英]Import or Index Hive/HDFS data with Apache Solr

如何在Lucene中從HDFS讀取索引

[英]How to read index from hdfs in Lucene

如何使用Solr索引目錄中的所有csv文件？

[英]How to index all csv files in a directory with Solr?

如何從HDFS到S3獲取文件

[英]How to get files from HDFS to S3

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何在Solr中索引HDFS pdf文件？ MapReduceIndexerTool-在Solr中索引HDFS文件的最佳方法？如何使用Solr將文件發送到HDFS 如何將文件從HDFS復制到遠程HDFS 如何從 HDFS 中刪除文件？在HDFS-Solr中存儲索引文件使用Apache Solr導入或索引Hive / HDFS數據如何在Lucene中從HDFS讀取索引如何使用Solr索引目錄中的所有csv文件？如何從HDFS到S3獲取文件

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM