Solr索引 - 主/從復制，如何處理巨大的索引和高流量？

Question

我目前正面臨SOLR的問題（更確切地說是奴隸復制），在花了很多時間在網上閱讀后，我發現自己不得不要求一些啟示。

- Solr的索引規模是否有一些限制？

在處理單個主服務器時，何時決定使用多核或多索引？ 是否有任何跡象表明何時達到一定的索引大小，建議進行分區？

- 從主站到從站復制段時是否有最大大小？

復制時，當從屬設備無法下載內容並將其編入索引時，是否存在段大小限制？ 當有大量流量要檢索信息和要復制的大量新文檔時，奴隸無法復制的閾值是多少 。

更事實的是，這里是導致我提出這些問題的背景：我們想要索引相當數量的文檔，但是當數量達到十幾萬時，奴隸就無法處理它並開始無法復制SnapPull錯誤。 文檔由幾個文本字段組成（名稱，類型，描述，...大約10個其他字段，最多20個字符）。

我們有一個主服務器和兩個從主服務器復制數據的從服務器。

這是我第一次使用Solr（我通常在使用spring，hibernate的webapps上工作......但沒有使用Solr），所以我不確定如何解決這個問題。

我們的想法是暫時向主服務器添加多個核心，並從每個核心復制一個從服務器。 這是正確的方法嗎？

如果是，我們如何確定所需的核心數量？ 現在我們只是試着看看它的行為和調整，如果有必要，但我想知道是否有任何最佳實踐或某些基准已經針對這個特定主題。

對於具有此平均大小的此數量的文檔，需要x核心或索引...

感謝您對我如何處理大量平均大小的文檔的任何幫助！

這是從屬設備嘗試復制時拋出的錯誤的副本：

ERROR [org.apache.solr.handler.ReplicationHandler] - <SnapPull failed >
org.apache.solr.common.SolrException: Index fetch failed :
        at org.apache.solr.handler.SnapPuller.fetchLatestIndex(SnapPuller.java:329)
        at org.apache.solr.handler.ReplicationHandler.doFetch(ReplicationHandler.java:264)
        at org.apache.solr.handler.SnapPuller$1.run(SnapPuller.java:159)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:417)
        at java.util.concurrent.FutureTask$Sync.innerRunAndReset(FutureTask.java:280)
        at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:135)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$101(ScheduledThreadPoolExecutor.java:65)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.runPeriodic(ScheduledThreadPoolExecutor.java:142)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:166)
        at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:650)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:675)
        at java.lang.Thread.run(Thread.java:595)
Caused by: java.lang.RuntimeException: java.io.IOException: read past EOF
        at org.apache.solr.core.SolrCore.getSearcher(SolrCore.java:1068)
        at org.apache.solr.update.DirectUpdateHandler2.commit(DirectUpdateHandler2.java:418)
        at org.apache.solr.handler.SnapPuller.doCommit(SnapPuller.java:467)
        at org.apache.solr.handler.SnapPuller.fetchLatestIndex(SnapPuller.java:319)
        ... 11 more
Caused by: java.io.IOException: read past EOF
        at org.apache.lucene.store.BufferedIndexInput.refill(BufferedIndexInput.java:151)
        at org.apache.lucene.store.BufferedIndexInput.readByte(BufferedIndexInput.java:38)
        at org.apache.lucene.store.IndexInput.readInt(IndexInput.java:70)
        at org.apache.lucene.index.SegmentInfos$2.doBody(SegmentInfos.java:410)
        at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:704)
        at org.apache.lucene.index.SegmentInfos$FindSegmentsFile.run(SegmentInfos.java:538)
        at org.apache.lucene.index.SegmentInfos.readCurrentVersion(SegmentInfos.java:402)
        at org.apache.lucene.index.DirectoryReader.isCurrent(DirectoryReader.java:791)
        at org.apache.lucene.index.DirectoryReader.doReopen(DirectoryReader.java:404)
        at org.apache.lucene.index.DirectoryReader.reopen(DirectoryReader.java:352)
        at org.apache.solr.search.SolrIndexReader.reopen(SolrIndexReader.java:413)
        at org.apache.solr.search.SolrIndexReader.reopen(SolrIndexReader.java:424)
        at org.apache.solr.search.SolrIndexReader.reopen(SolrIndexReader.java:35)
        at org.apache.solr.core.SolrCore.getSearcher(SolrCore.java:1049)
        ... 14 more

編輯：在Mauricio的回答之后，solr庫已經更新到1.4.1但仍然提出了這個錯誤。 我增加了commitReserveDuration，即使“SnapPull失敗”錯誤似乎已經消失，另一個開始被提升，不知道為什么我似乎無法在網上找到太多答案：

ERROR [org.apache.solr.servlet.SolrDispatchFilter] - <ClientAbortException:  java.io.IOException
        at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:370)
        at org.apache.tomcat.util.buf.ByteChunk.append(ByteChunk.java:323)
        at org.apache.catalina.connector.OutputBuffer.writeBytes(OutputBuffer.java:396)
        at org.apache.catalina.connector.OutputBuffer.write(OutputBuffer.java:385)
        at org.apache.catalina.connector.CoyoteOutputStream.write(CoyoteOutputStream.java:89)
        at org.apache.solr.common.util.FastOutputStream.flushBuffer(FastOutputStream.java:183)
        at org.apache.solr.common.util.JavaBinCodec.marshal(JavaBinCodec.java:89)
        at org.apache.solr.request.BinaryResponseWriter.write(BinaryResponseWriter.java:48)
        at org.apache.solr.servlet.SolrDispatchFilter.writeResponse(SolrDispatchFilter.java:322)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:254)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:215)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:188)
        at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:213)
        at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:172)
        at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:127)
        at org.jstripe.tomcat.probe.Tomcat55AgentValve.invoke(Tomcat55AgentValve.java:20)
        at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:117)
        at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:108)
        at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:174)
        at org.apache.coyote.http11.Http11AprProcessor.process(Http11AprProcessor.java:837)
        at org.apache.coyote.http11.Http11AprProtocol$Http11ConnectionHandler.process(Http11AprProtocol.java:640)
        at org.apache.tomcat.util.net.AprEndpoint$Worker.run(AprEndpoint.java:1286)
        at java.lang.Thread.run(Thread.java:595)
Caused by: java.io.IOException
        at org.apache.coyote.http11.InternalAprOutputBuffer.flushBuffer(InternalAprOutputBuffer.java:703)
        at org.apache.coyote.http11.InternalAprOutputBuffer$SocketOutputBuffer.doWrite(InternalAprOutputBuffer.java:733)
        at org.apache.coyote.http11.filters.ChunkedOutputFilter.doWrite(ChunkedOutputFilter.java:124)
        at org.apache.coyote.http11.InternalAprOutputBuffer.doWrite(InternalAprOutputBuffer.java:539)
        at org.apache.coyote.Response.doWrite(Response.java:560)
        at org.apache.catalina.connector.OutputBuffer.realWriteBytes(OutputBuffer.java:365)
        ... 22 more
>
ERROR [org.apache.catalina.core.ContainerBase.[Catalina].[localhost].[/].[SolrServer]] - <Servlet.service() for servlet SolrServer threw exception>
java.lang.IllegalStateException
        at org.apache.catalina.connector.ResponseFacade.sendError(ResponseFacade.java:405)
        at org.apache.solr.servlet.SolrDispatchFilter.sendError(SolrDispatchFilter.java:362)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:272)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:215)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:188)
        at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:213)
        at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:172)
        at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:127)
        at org.jstripe.tomcat.probe.Tomcat55AgentValve.invoke(Tomcat55AgentValve.java:20)
        at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:117)
        at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:108)
        at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:174)
        at org.apache.coyote.http11.Http11AprProcessor.process(Http11AprProcessor.java:837)
        at org.apache.coyote.http11.Http11AprProtocol$Http11ConnectionHandler.process(Http11AprProtocol.java:640)
        at org.apache.tomcat.util.net.AprEndpoint$Worker.run(AprEndpoint.java:1286)
        at java.lang.Thread.run(Thread.java:595)

我仍然想知道處理包含solr的大量文檔的大索引（超過20G）的最佳實踐是什么。 我在哪里錯過了一些明顯的鏈接？ 教程，文檔？

Answer 1

核心是一種主要用於在單個Solr實例中具有不同模式的工具。 也用作甲板上的索引。 分片和復制是正交問題。
你提到“很多流量”。 這是一個非常主觀的衡量標准。 相反，嘗試確定Solr需要多少QPS（每秒查詢數）。 此外，單個Solr實例是否足夠快地回答您的查詢？ 只有這樣才能確定是否需要向外擴展。 單個Solr實例可以處理大量流量，也許您甚至不需要擴展。
確保在具有足夠內存的服務器上運行Solr（並確保Java可以訪問它）。 Solr非常渴望內存，如果你把它放在內存受限的服務器上，性能會受到影響。
正如Solr wiki所解釋的，如果單個查詢運行時間過長，則使用分片，如果單個Solr實例無法處理流量，則使用復制。 “太長”和“流量”取決於您的特定應用。 測量它們。
Solr有許多影響性能的設置：緩存自動加溫，存儲字段，合並因子等。查看SolrPerformanceFactors 。
這里沒有嚴格的規定。 每個應用都有不同的搜索需求。 模擬和測量您的特定方案。
關於復制錯誤，請確保您運行的是1.4.1，因為1.4.0存在復制錯誤。

Solr索引 - 主/從復制，如何處理巨大的索引和高流量？

問題描述

1 個解決方案

解決方案1
15 2010-11-13 03:44:35

Solr索引 - 主/從復制，如何處理巨大的索引和高流量？

問題描述

1 個解決方案

解決方案1 15 2010-11-13 03:44:35

解決方案1
15 2010-11-13 03:44:35