簡體   English   中英

Lucene 無索引 html css 標簽 Z93F725A07423FE1C889F448B33D21F6

[英]Lucene indexing without html css tags java

我正在使用 lucene 使用 java 編程語言來索引我的數據。 但是,當我檢索 lucene 索引的術語時,它們會出現帶有 html 之類的標簽(html 被視為術語而不是標簽,lucene 不會刪除它)。 是否有任何代碼或庫,例如可以刪除所需的 html 標簽的英語分析器?

如果你想在 Lucene 中索引之前刪除 html 標簽,你可以使用PatternReplaceCharFilter 它使用正則表達式作為替換字符串的目標。

您可以像這樣創建 char 過濾器:

CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);

這將用空字符串替換所有 html 標記,因此它將被刪除。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM