Lucene：迭代所有條目

Question

我有一個Lucene索引，我想對其進行迭代（在開發的當前階段進行一次評估），我有4個文檔，每個文檔有數十萬至上百萬個條目，我希望對其進行迭代以計算單詞數每個條目（〜2-10）並計算頻率分布。

我目前正在做的是：

   for (int i = 0; i < reader.maxDoc(); i++) {
                    if (reader.isDeleted(i))
                        continue;

                    Document doc = reader.document(i);
                Field text = doc.getField("myDocName#1");

                String content = text.stringValue();


                int wordLen = countNumberOfWords(content);
//store
}

到目前為止，它正在迭代某些東西。 調試確認它至少可以對文檔中存儲的術語進行操作，但是由於某種原因，它僅處理一小部分存儲的術語。 我想知道我做錯了什么嗎？ 我只是想遍歷所有文檔以及其中存儲的所有內容？

Answer 1

首先，您需要確保啟用TermVectors進行索引

doc.add(new Field(TITLE, page.getTitle(), Field.Store.YES, Field.Index.ANALYZED, TermVector.WITH_POSITIONS_OFFSETS));

然后，您可以使用IndexReader.getTermFreqVector來計數術語

TopDocs res = indexSearcher.search(YOUR_QUERY, null, 1000);

// iterate over documents in res, ommited for brevity

reader.getTermFreqVector(res.scoreDocs[i].doc, YOUR_FIELD, new TermVectorMapper() {
            public void map(String termval, int freq, TermVectorOffsetInfo[] offsets, int[] positions) {
                // increment frequency count of termval by freq
                freqs.increment(termval, freq);
            }

            public void setExpectations(String arg0, int arg1,boolean arg2, boolean arg3) {}
});

Lucene：迭代所有條目

問題描述

1 個解決方案

解決方案1
1 2011-09-26 17:41:05

Lucene：迭代所有條目

問題描述

1 個解決方案

解決方案1 1 2011-09-26 17:41:05

解決方案1
1 2011-09-26 17:41:05