Lucene 無索引 html css 標簽 Z93F725A07423FE1C889F448B33D21F6

Question

我正在使用 lucene 使用 java 編程語言來索引我的數據。 但是，當我檢索 lucene 索引的術語時，它們會出現帶有 html 之類的標簽（html 被視為術語而不是標簽，lucene 不會刪除它）。 是否有任何代碼或庫，例如可以刪除所需的 html 標簽的英語分析器？

Answer 1

如果你想在 Lucene 中索引之前刪除 html 標簽，你可以使用PatternReplaceCharFilter 。 它使用正則表達式作為替換字符串的目標。

您可以像這樣創建 char 過濾器：

CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);

這將用空字符串替換所有 html 標記，因此它將被刪除。

Lucene 無索引 html css 標簽 Z93F725A07423FE1C889F448B33D21F6

問題描述

1 個解決方案

解決方案1
0 2019-10-13 18:19:30

Lucene 無索引 html css 標簽 Z93F725A07423FE1C889F448B33D21F6

問題描述

1 個解決方案

解決方案1 0 2019-10-13 18:19:30

解決方案1
0 2019-10-13 18:19:30