[英]Lucene indexing without html css tags java
我正在使用 lucene 使用 java 編程語言來索引我的數據。 但是,當我檢索 lucene 索引的術語時,它們會出現帶有 html 之類的標簽(html 被視為術語而不是標簽,lucene 不會刪除它)。 是否有任何代碼或庫,例如可以刪除所需的 html 標簽的英語分析器?
如果你想在 Lucene 中索引之前刪除 html 標簽,你可以使用PatternReplaceCharFilter 。 它使用正則表達式作為替換字符串的目標。
您可以像這樣創建 char 過濾器:
CharFilter cf = new PatternReplaceCharFilter(Pattern.compile("<[^>]*>"), "", reader);
這將用空字符串替換所有 html 標記,因此它將被刪除。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.