[英]Configuring Tika With Solr
我希望将Rich类型文档(Pdf,Doc,rtf,txt)编入索尔。 我发现Tika是一种解决方案。 我在网上咆哮,但没有发现任何Docs /链接使它与ExtractingRequestHandler一起使用。
任何人都可以提供一步一步的方法来配置Tika与ExtractingRequestHandler。
提前致谢 :)
检查ExtractingRequestHandler以使用Tika集成Solr。
Solr提供内置的tika.config,除非重写配置,否则你不需要定义它。
您可以使用solrconfig.xml中定义的默认配置
<!-- Solr Cell Update Request Handler
http://wiki.apache.org/solr/ExtractingRequestHandler
-->
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<!-- capture link hrefs but ignore div attributes -->
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
</lst>
</requestHandler>
您可以使用这些命令将文件索引以使用其他元数据进行索引。
curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "myfile=@1.pdf"
默认情况下,文件的内容将复制到内容字段并复制到文本,您可以覆盖设置。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.