簡體   English   中英

如何將PDF文件從HDFS索引到Solr

[英]How to index pdf files from HDFS to Solr

我是Apache solr的新手,在我的項目中有一個要求,我必須將pdf文檔從HDFS上傳到Solr,然后從那里我要使用Solr rest API。 我的本地文件系統中總共有40k pdf文檔,首先我將它們推送到HDFS。 但是從那里到Solr我真的不知道

另一件事是在索引到Solr時,我想從pdf文檔中讀取一些數據,並將該數據也索引到Solr中。 示例:我想要Extraxt候選名稱,pdf文檔中的候選位置,並將其推送到看起來像的solr模式中,

name: "candidate_name"
location: "candidate_location"
document: "pdf_document"

我通過互聯網搜索了此內容,但找不到正確的解決方案

嘗試使用https://github.com/lucidworks/hadoop-solr

您應該嘗試使用DirectoryIngestMapper,它具有Tika解析功能,但是您必須對其進行自定義。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM