[英]Solr index xml file with html tag (with DataImportHandler)
我有Solr 4.10.4,我想索引一個xml文件。 某些xml標簽包含html標簽。
<?xml version='1.0' encoding='UTF-8' standalone='no' ?>
<root>
<info>
<text>
<p>text 1</p>
<p>text 2</p>
<p>text 3</p>
</text>
</info>
</root>
我用這個:
<charFilter class="solr.HTMLStripCharFilterFactory"/>
但這是行不通的,我也不知道哪里出了問題。
M.
HTMLStripCharFilterFactory將從被索引的數據而不是從存儲的數據中剝離HTML 年齡 。
要在索引時去除 html標簽,可以在dataimporthandler中使用HTMLStripTransformer 。 以下是相同的示例DIH。
<dataConfig>
<dataSource name="fDS" type="FileDataSource" />
<document>
<entity name="tika-test" processor="XPathEntityProcessor"
url="${solr.install.dir}/example/exampledocs/content.xml" forEach="/root" dataSource="fDS">
<field column="text" xpath="/root/info/text/p" />
</entity>
</document>
此轉換器有一個屬性stripHTML,它是一個布爾值(真/假),用於表示HTMLStripTransformer是否應處理該字段。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.