簡體   English   中英

用Lucene索引zip文件

[英]Indexing zip files with Lucene

是否可以在lucene中索引壓縮的文件夾。 如果我將其解壓縮,則內容太大。 如果我只是索引包含文本文件的一堆壓縮文件夾,則Serach無法正常工作。 Lucene是否可以在不提取zip文件的情況下進行索引。

Lucene只是一個搜索庫,它無法“知道”所有可能的情況-例如如何索引XML文檔,Word文件,.zip中的文件,切爾諾貝利電廠創建的文件等。

但是Lucene所做的是為您提供API來將數據連接到Lucene中。

如果無法解壓縮存檔文件的內容,則可以編寫一個類來讀取zip文件 (但不將其解壓縮到磁盤上)並將該數據輸入Lucene。

如果您最關心的是索引的大小,那么您就無濟於事了。 但是有一些技巧:

  • 嘗試索引沒有停用詞
  • 不存儲字段,僅對其進行索引(提示: Field.Store.NO
  • 始終小寫所有術語以減少術語數

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM