繁体   English   中英

用Lucene索引单个Xml文件

[英]Index single Xml-file with Lucene

我正在编写Java应用程序,并希望使用Lucene为Xml文件编制索引,以便我可以搜索具有给定目标的药物。 文件大小为400MB,可容纳8000多个药物条目。

<drug type="biotech" created="2005-06-13" updated="2015-11-27">
    <drugbank-id primary="true">DB00001</drugbank-id>
    <drugbank-id>BIOD00024</drugbank-id>
    <drugbank-id>BTD00024</drugbank-id>
    <name>Lepirudin</name>
    ....
    <targets>
        <target position="1">
            <id>BE0000767</id>
            <name>Epidermal growth factor receptor</name>
            ....
        </target>
        ....
    </targets>
</drug>
<drug>
....
</drug>

我如何索引该文件,所以一个药品条目就是一个文档? 如果有人拥有一些有用的链接/资源或关于如何对此Xml编制索引的提示,请告诉我:)

最灵活的策略通常是通过一个小的Java应用程序使用SolrJ ,该应用程序读取文件并将其转换为适合的格式以在Solr中建立索引。 这样,您可以轻松地对某些字段进行预处理,然后再由Solr接收它们。

另一个选择是使用XSL将XML文件转换为Solr可以理解的格式 可以在服务器端(与XSLTUpdateRequestHandler链接在一起)或客户端(将XML文档转换为更新请求并将其提交到标准请求处理程序)中使用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM