[英]How to handle html encoded text in Elastic search?
在我們的一個應用程序中,我們主要處理要搜索的html編碼文本。 在將文檔添加到Elastic搜索之前,我可以剝離html標記(我有一個包含完整文本的字段,其中包含html標記,一個不包含剝離的版本)。
我想知道是否有可用的標准分析儀,這樣我就不必事先剝離html標簽“ myself” ...
希望有人可以幫忙...
html_strip字符過濾器應該可以幫助:
例如:
curl -XPOST "http://<server>/_analyze?tokenizer=standard&char_filters=html_strip&text='This%20is%20a%20%3Cb%3EDOCUMENT%3C%2Fb%3E%20with%20html'"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.