簡體   English   中英

如何在Elastic搜索中處理html編碼的文本?

[英]How to handle html encoded text in Elastic search?

在我們的一個應用程序中,我們主要處理要搜索的html編碼文本。 在將文檔添加到Elastic搜索之前,我可以剝離html標記(我有一個包含完整文本的字段,其中包含html標記,一個不包含剝離的版本)。

我想知道是否有可用的標准分析儀,這樣我就不必事先剝離html標簽“ myself” ...

希望有人可以幫忙...

html_strip字符過濾器應該可以幫助:

例如:

curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'"

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM