簡體   English   中英

Elasticsearch發布熒光筆返回太多句子

[英]Elasticsearch postings highlighter returns too many sentences

我的帖子熒光筆有問題。 根據文檔:“ ...張貼熒光筆...輸出句子,無論其長度如何。”

因此,通過設置: "number_of_fragments" : 1我只能得到一句話。 這是90%的情況,但是有時我會得到很長的文本,顯然超過一句話。 例如:(突出顯示的單詞是river ,被污染

它是一個大學機構,負責水資源綜合管理的咨詢和審議-致力於由州,市政當局和民間團體同等建設的單位水資源管理10。 [2]該委員會是民間社會的倡議,目前包括34個市,其中18個位於索羅卡巴流域,16個位於中提耶特中部次流域。 [3]由於工業活動,采礦,未經處理的污水等原因,這條河一直很污染

共有3個句子,前兩個甚至沒有加亮的單詞。 我認為這里存在一個錯誤,導致帖子熒光筆忽略“。”。 當后跟'['時。 我注意到在所有不良的突出顯示結果中都是這種情況。

這是一個已知的錯誤? 還是我錯過了什么? 謝謝

本質上,我不確定我是否認為這是一個錯誤。 句子的邊界並不像分割句那么簡單(您不希望破壞“ 3.14”或“史密斯先生”),而且常常是模棱兩可的。

PostingsHighlighter使用java.text.BreakIterator來檢測分解句子的位置。 我以為BreakIterator的行為是基於UAX#29的 ,但是這種行為與此並不太一致( 您可以在此處嘗試 )。

因此,很可能是java.text.BreakIterator中的錯誤,或者這可能只是其算法的工作方式。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM