簡體   English   中英

lucene搜索

[英]lucene searching

尊敬的StackOverFlow開發人員:我需要您的幫助。 我被困在Apache Lucene中,無法在Java swing應用程序中使用。 這個問題是如此復雜,以至於我什至感到困惑。 請嘗試了解我的實際要求。 這種情況很簡單,我必須提供html文件,以便客戶端可以在swing應用程序中訪問它們,並且為了搜索功能,我決定使用apache lucene索引。 這為我提供了搜索工具,但現在我想顯示符合搜索條件的html文件數據。 在Java API中,即時通訊使用swing和JEditorPane是控件,我必須在其中顯示html文件的內容。 請建議我如何索引html文件以及如何從lucene索引獲取html文件的內容。 html文件不僅具有文本,而且具有鏈接,圖像等。

在此先感謝您的幫助

在我們使用Lucene進行全文索引和搜索的項目之一中,我們按以下方式處理HTML文件:

  • 將HTML文檔按原樣存儲在磁盤上(也可以存儲在DB中)。
  • 使用Jericho HTMLParser的HTML-> Text轉換器,我們從HTML文檔中提取了文本,鏈接等。
  • lucene文檔具有一些屬性,這些屬性以令牌化格式存儲了HTML文件中與HTML中的文本內容分開的元數據。
  • 使用StandardAnalyzer在標記化過程中按原樣保留某些標記,例如電子郵件,網站鏈接,然后再建立索引。
  • 搜索索引后,返回的匹配包含與條件匹配的HTML文件的元數據。 因此,我們能夠識別出要針對給定搜索結果顯示的HTML內容。

HTH。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM