Solr Tika刪除換行符

Question

我正在使用帶有tika的Solr 5.3.1提取pdf進行索引。 該過程有效，但其中包含許多換行符。 無論如何，有沒有使用分析儀刪除那些換行符？

這是我的分析器代碼：

<analyzer type="query">
    <!--<charFilter class="solr.MappingCharFilterFactory" mapping="mapping-FoldToASCII.txt"/>-->
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="([\\n])" replacement="" />
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.PatternReplaceFilterFactory" pattern="\u000A" replacement="," />
    <!--<Filter class="solr.PatternReplaceCharFilterFactory" pattern="([\\n])" replacement="" replace="all"/>-->
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="0" generateNumberParts="0" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" preserveOriginal="1" />
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="lang/stopwords_en.txt"
            />
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EnglishPossessiveFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <!-- Optionally you may want to use this less aggressive stemmer instead of PorterStemFilterFactory:-->
    <!--<filter class="solr.EnglishMinimalStemFilterFactory"/>-->
    <!--<filter class="solr.PorterStemFilterFactory"/>-->
  </analyzer>

我嘗試以CharFilter為例，並將換行符（\\ n）放入stopwords_en.txt中。 沒用 我也嘗試了solr.MappingCharFilterFactory。 我試圖放"\\n"=> "<br>"或"\\\\n" => "<br>" 。 它也不起作用。

有人可以幫忙刪除換行符嗎？

謝謝

Answer 1

這是您的查詢時間分析器，它是用戶提交查詢時運行的分析器。 您的Tika后處理發生在索引時間分析器中。 因此，嘗試在那里定義它。 我認為PatternReplaceCharFilterFactory應該足夠了。 另外，您可以查看TrimFilterFactory 。

Solr Tika刪除換行符

問題描述

1 個解決方案

解決方案1
1 2016-12-11 18:05:59

Solr Tika刪除換行符

問題描述

1 個解決方案

解決方案1 1 2016-12-11 18:05:59

解決方案1
1 2016-12-11 18:05:59