繁体 English 中英

Solr / Lucene中的大型文档索引中的可能问题

[英]possible issues in indexing of large documents in solr/lucene

原文 2014-08-31 08:30:54 7 1 solr/ lucene/ buffer/ batch-processing

我正在尝试索引Solr / Lucene中的大数据。 由于它是一个遗留系统，并且由于其他一些原因，因此我必须通过C ++层进行操作。 但在此之前，我想优化流程，所以我为此做了google。 我发现以下几点：

批量索引：这将在因某些失败而在两次索引之间失败的情况下为我提供帮助。 所以我可以从剩余的批次开始。
缓冲区查找
索引器并发

我在寻找其他问题时在某处找到了最后两个词，但我无法完全理解它。

因此，如果有人可以帮助我理解这两个问题以及可能出现的任何其他问题。

1 个解决方案

我不确定当您提到“ 缓冲区查找 ”时是什么意思-通常是允许服务器具有良好的内存中高速缓存的情况，在这种情况下，可以尽可能多地查询查询而不必重新计算文档之间的交集以及每个查询包含在特定集合中的文档。 对于Solr，使用不同的* cache -settings进行配置。 对于大多数应用程序，要求将有所不同，具体取决于查询负载，字段定义等。执行提交（使文档在索引中可见）通常会使高速缓存过期，因为高速缓存可能不再有效。

Indexer Concurrency允许服务器同时从多个线程将文档插入到实际索引中，而无需在线程之间进行锁定。 Lucene 在2011年（对于Lucene 4.0）使并发索引成为可能，并允许更快，更有效地更新索引。 这是否重要取决于您的应用程序。