減少索引Lucene文檔的內存使用量

Question

現在，我在Lucene中的文檔在一個字段中可以具有非常大的值（從0到數百MB）。

我正在使用Lucene 3.1.0，我創建這樣的文檔：

doc = new Document();
Field field = new Field(fieldname, VERYLARGEVALUE, store, tokenize, storevector);
doc.add(field);

其中VERYLARGEVALUE是內存中的字符串。 我在想，也許在創建文件時將VERYLARGEVALUE寫入文件中（它是通過從許多來源提取文本來創建的，因此它是增量的），然后使用：

Field field = Field(String name, Reader reader, Field.TermVector termVector); 
doc.add(field);

讀者從我寫VERYLARGEVALUE的文件中讀取的位置。

這會減少內存需求，還是早晚將VERYLARGEVALUE最終讀入內存？

Answer 1

java.io.Reader實現旨在通過將字符流的某些部分讀入內存來有效地讀取字符流。 （請參閱read（char [] cbuf） API。）因此，我想說“是”，使用Reader會減少您的內存開銷

Answer 2

通過Lucene代碼，您傳遞給Field的Reader最終會傳遞給對您的數據進行標記化的TokenStream （即在DocInverterPerField ）。 因此，您的計划肯定會節省內存，因為它會直接從該讀取器中流式傳輸以進行索引。 您可能想在FileReader之上使用BufferedReader以獲得更好的性能。

減少索引Lucene文檔的內存使用量

問題描述

2 個解決方案

解決方案1
1 2011-04-20 09:47:14

解決方案2
0 已采納 2011-04-20 09:50:18

減少索引Lucene文檔的內存使用量

問題描述

2 個解決方案

解決方案1 1 2011-04-20 09:47:14

解決方案2 0 已采納 2011-04-20 09:50:18

解決方案1
1 2011-04-20 09:47:14

解決方案2
0 已采納 2011-04-20 09:50:18