簡體   English   中英

solr PDF 和自動換行

[英]solr PDF and word wrap

我正在使用 Solr 來索引 PDF 個文檔。 一切正常,但有一個問題。 如果 PDF 文檔中的某個詞已被換行到另一行,則將其作為該詞的一部分加一個連字符進行索引。 例如,像這樣的文本:

我們跑到海邊。 我們聽到更多的槍聲,然后每-

一切都安靜了,一面旗幟在樹上飄揚。

這里的單詞everything被分解成部分every- and thing 現在,如果我搜索所有內容,我將無法找到該文檔。 在這種情況下如何正確執行?

在 Abhijit Bashetti 和 MatsLindh 的建議下,問題得以解決。 在我的 schema.xml 中,我添加了這一行

<charFilter class="solr.PatternReplaceCharFilterFactory" pattern="\-\n" replacement=""/>

之后,自動換行不會干擾搜索。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM