具有html標記的Solr索引xml文件（帶有DataImportHandler）

Question

我有Solr 4.10.4，我想索引一個xml文件。 某些xml標簽包含html標簽。

<?xml version='1.0' encoding='UTF-8' standalone='no' ?>
<root>
   <info>
        <text>
             <p>text 1</p>
             <p>text 2</p>
             <p>text 3</p> 
        </text> 
   </info> 
</root>

我用這個：

<charFilter class="solr.HTMLStripCharFilterFactory"/>

但這是行不通的，我也不知道哪里出了問題。

M.

Answer 1

HTMLStripCharFilterFactory將從被索引的數據而不是從存儲的數據中剝離HTML 年齡。
要在索引時去除 html標簽，可以在dataimporthandler中使用HTMLStripTransformer 。 以下是相同的示例DIH。

<dataConfig>
<dataSource name="fDS" type="FileDataSource" />
<document>
    <entity name="tika-test" processor="XPathEntityProcessor"
            url="${solr.install.dir}/example/exampledocs/content.xml" forEach="/root" dataSource="fDS">
            <field column="text" xpath="/root/info/text/p" />
    </entity>
</document>

此轉換器有一個屬性stripHTML，它是一個布爾值（真/假），用於表示HTMLStripTransformer是否應處理該字段。

具有html標記的Solr索引xml文件（帶有DataImportHandler）

問題描述

1 個解決方案

解決方案1
0 2016-09-27 12:47:20

具有html標記的Solr索引xml文件（帶有DataImportHandler）

問題描述

1 個解決方案

解決方案1 0 2016-09-27 12:47:20

解決方案1
0 2016-09-27 12:47:20