[英]Apache Solr does not index scanned PDFs
我想索引扫描的PDF文件。 我已经在Centos 6上安装了Solr 6.3.0 , tesseract 3.04 , leptonica 1.74 。我已经根据文档配置了solrconfig。
我已经测试过tesseract和solr的png,jpg,一切看起来都不错。 但是,当我尝试为扫描的PDF文件建立索引时,Solr不会为扫描的图像建立索引,仅提取pdf注释消息( 示例文档 )。 (根据索引响应使用DefaultParser和PDFParser)
之后,我用Google搜索问题,发现了该解决方案 (我测试了,它可以工作!),但是我无法将Java代码转换为Xml配置。 我该如何将Java代码设置为Xml配置文件?
任何帮助将是巨大的!
您可以使用Lucene 3.0
索引和搜索扫描的pdf
文件。 我一直在使用做Lucene 3.0
索引扫描的pdf
文件,然后搜索最频繁重复的单词在扫描的pdf
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.