繁体   English   中英

用Lucene索引zip文件

[英]Indexing zip files with Lucene

是否可以在lucene中索引压缩的文件夹。 如果我将其解压缩,则内容太大。 如果我只是索引包含文本文件的一堆压缩文件夹,则Serach无法正常工作。 Lucene是否可以在不提取zip文件的情况下进行索引。

Lucene只是一个搜索库,它无法“知道”所有可能的情况-例如如何索引XML文档,Word文件,.zip中的文件,切尔诺贝利电厂创建的文件等。

但是Lucene所做的是为您提供API来将数据连接到Lucene中。

如果无法解压缩存档文件的内容,则可以编写一个类来读取zip文件 (但不将其解压缩到磁盘上)并将该数据输入Lucene。

如果您最关心的是索引的大小,那么您就无济于事了。 但是有一些技巧:

  • 尝试索引没有停用词
  • 不存储字段,仅对其进行索引(提示: Field.Store.NO
  • 始终小写所有术语以减少术语数

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM