簡體   English   中英

Solr Tika刪除換行符

[英]Solr tika remove newline

我正在使用帶有tika的Solr 5.3.1提取pdf進行索引。 該過程有效,但其中包含許多換行符。 無論如何,有沒有使用分析儀刪除那些換行符?

這是我的分析器代碼:

<analyzer type="query">
    <!--<charFilter class="solr.MappingCharFilterFactory" mapping="mapping-FoldToASCII.txt"/>-->
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="([\\n])" replacement="" />
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.PatternReplaceFilterFactory" pattern="\u000A" replacement="," />
    <!--<Filter class="solr.PatternReplaceCharFilterFactory" pattern="([\\n])" replacement="" replace="all"/>-->
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="0" generateNumberParts="0" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" preserveOriginal="1" />
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="lang/stopwords_en.txt"
            />
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EnglishPossessiveFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <!-- Optionally you may want to use this less aggressive stemmer instead of PorterStemFilterFactory:-->
    <!--<filter class="solr.EnglishMinimalStemFilterFactory"/>-->
    <!--<filter class="solr.PorterStemFilterFactory"/>-->
  </analyzer>

我嘗試以CharFilter為例,並將換行符(\\ n)放入stopwords_en.txt中。 沒用 我也嘗試了solr.MappingCharFilterFactory。 我試圖放"\\n"=> "<br>""\\\\n" => "<br>" 它也不起作用。

有人可以幫忙刪除換行符嗎?

謝謝

這是您的查詢時間分析器,它是用戶提交查詢時運行的分析器。 您的Tika后處理發生在索引時間分析器中。 因此,嘗試在那里定義它。 我認為PatternReplaceCharFilterFactory應該足夠了。 另外,您可以查看TrimFilterFactory

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM