[英]Solr tika remove newline
我正在使用帶有tika的Solr 5.3.1提取pdf進行索引。 該過程有效,但其中包含許多換行符。 無論如何,有沒有使用分析儀刪除那些換行符?
這是我的分析器代碼:
<analyzer type="query">
<!--<charFilter class="solr.MappingCharFilterFactory" mapping="mapping-FoldToASCII.txt"/>-->
<charFilter class="solr.PatternReplaceCharFilterFactory" pattern="([\\n])" replacement="" />
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.PatternReplaceFilterFactory" pattern="\u000A" replacement="," />
<!--<Filter class="solr.PatternReplaceCharFilterFactory" pattern="([\\n])" replacement="" replace="all"/>-->
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="0" generateNumberParts="0" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" preserveOriginal="1" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="lang/stopwords_en.txt"
/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPossessiveFilterFactory"/>
<filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<!-- Optionally you may want to use this less aggressive stemmer instead of PorterStemFilterFactory:-->
<!--<filter class="solr.EnglishMinimalStemFilterFactory"/>-->
<!--<filter class="solr.PorterStemFilterFactory"/>-->
</analyzer>
我嘗試以CharFilter為例,並將換行符(\\ n)放入stopwords_en.txt中。 沒用 我也嘗試了solr.MappingCharFilterFactory。 我試圖放"\\n"=> "<br>"
或"\\\\n" => "<br>"
。 它也不起作用。
有人可以幫忙刪除換行符嗎?
謝謝
這是您的查詢時間分析器,它是用戶提交查詢時運行的分析器。 您的Tika后處理發生在索引時間分析器中。 因此,嘗試在那里定義它。 我認為PatternReplaceCharFilterFactory應該足夠了。 另外,您可以查看TrimFilterFactory 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.