繁体   English   中英

Apache Solr不会为扫描的PDF编制索引

[英]Apache Solr does not index scanned PDFs

我想索引扫描的PDF文件。 我已经在Centos 6上安装了Solr 6.3.0tesseract 3.04leptonica 1.74 。我已经根据文档配置了solrconfig。

我已经测试过tesseract和solr的png,jpg,一切看起来都不错。 但是,当我尝试为扫描的PDF文件建立索引时,Solr不会为扫描的图像建立索引,仅提取pdf注释消息( 示例文档 )。 (根据索引响应使用DefaultParser和PDFParser)

之后,我用Google搜索问题,发现了该解决方案 (我测试了,它可以工作!),但是我无法将Java代码转换为Xml配置。 我该如何将Java代码设置为Xml配置文件?

任何帮助将是巨大的!

您可以使用Lucene 3.0索引和搜索扫描的pdf文件。 我一直在使用做Lucene 3.0索引扫描的pdf文件,然后搜索最频繁重复的单词在扫描的pdf

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM