繁体   English   中英

Lucene / Solr-索引出版物/文本

[英]Lucene/Solr - Indexing publications/texts

我希望能够搜索具有多个方面的出版物。 这些文档将被注释,因此我会将注释上载到solr实例。 批注中将包含字段,这些字段是文档中的术语。 这是一个例子:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<add>
    <doc>
        <field name="Title">High Glucose Increases the Expression of Inflammatory Cytokine Genes in
Macrophages Through H3K9 Methyltransferase Mechanism.</field>
        <field name="Cytokine">INTERFERON </field>
        <field name="Cytokine">CYTOKINE </field>
        <field name="Cytokine">CYTOKINE</field>
        <field name="Cytokine">MEC</field>
        <field name="Cytokine">EPA</field>
        <field name="Cytokine">DIA</field>
        <field name="Cytokine">FIC</field>
        <field name="Cytokine">CYTOKINES</field>
        <field name="Cytokine">INTERLEUKIN-6 </field>
        <field name="Cytokine">INTERLEUKIN</field>
        <field name="Cytokine">IL-12P40</field>
        <field name="Cytokine">IL-12</field>
        <field name="Cytokine">IL-1</field>
        <field name="Cytokine">P40</field>
        <field name="Cytokine">MACROPHAGE INFLAMMATORY PROTEIN-1</field>
        <field name="Cytokine">MACROPHAGE INFLAMMATORY PROTEIN</field>
    </doc>
</add>

这些术语均来自细胞因子本体论。

我希望能够将构面设置为Cytokine,然后选择该术语并查找包含所选术语的所有文档。

这里是要抓住的地方:

  • 我希望能够存储在文档中找到的所述术语的位置(它可以显示在多个位置。因此稍后可以重点介绍)。 所有这些位置都存储在注释中。
  • 我希望能够从构面中选择一个术语,并调出包含该术语同义词的文档,但不要将其作为构面中的术语上载(或以某种方式(如子类别)作为同义词加以区分)。 例如汽车和汽车
  • 我希望能够进行交叉搜索,例如查找包含MEC和EPA的文档。
  • 我有一个要列出的术语列表,并希望根据这些术语搜索文档。 这些术语具有同义词,我已经输入了onymous.txt文件。

另外,当一个术语在文档中多次出现时,注释中有该术语的多个实例且位置不同,我该如何处理? solr会自动处理重复而不给我两次文件吗?

还有一件事:将整个出版物上载到solr,并在预定义的术语列表中建立索引怎么办?

据我了解,您有同义词,应该直接验证搜索字词,并同时使用同义词进行验证并返回结果。 让我知道是否知道。

如果索引时具有所有同义词,则可以将它们索引为多值字段并在该字段上搜索。

构面用于将结果分组的搜索。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM