Apache Solr topTerms（LukeRequestHandler）未提供正確的令牌計數

Question

我正在使用Solr 4主干構建，已經有兩天了。

根據LukeRequestHandler的Wiki頁面（第一個示例輸出），我們應該獲取每個或任何指定字段的令牌計數。 我想用它來計算我所有文檔中每個單詞出現的次數。 例如，如果單詞“ is”出現在兩個MS Word文檔中，第一次出現兩次，第二次出現三次，則輸出如下：

<lst name="text">
  <str name="type">text</str>
  <str name="schema">IT-M---------</str>
  <str name="index">(unstored field)</str>
  <int name="docs">2</int>
  <int name="distinct">42</int>
  <lst name="topTerms">
    <int name="is">5</int>

這是因為在兩個文檔中單詞“是”總共出現了五次。 但是，我實際上得到的是<int name="is">2</int> 。 我相信這是因為它明顯發生（由文件）共兩次。

但是同樣，根據Wiki，我們應該獲得所有文檔的總數，這是我真正想要的。

如何獲得所有索引文檔中每個單詞出現的總次數 ？

參考：

http://wiki.apache.org/solr/LukeRequestHandler

Answer 1

TermsComponent返回的文檔頻率是與該術語匹配的唯一文檔的數量，包括已標記為刪除但尚未從索引中刪除的所有文檔。

TermVectorComponent提供有關在字段上設置termVector屬性時存儲的文檔的信息。
TVC可以返回術語向量，術語頻率，逆文檔頻率以及位置和偏移信息。

tv.tf-返回文檔中每個術語的術語頻率信息。

<lst name="termVectors">
  <lst name="doc-5">
    <str name="uniqueKey">MA147LL/A</str>
    <lst name="includes">
      <lst name="cable">
        <int name="tf">1</int>
      </lst>
      <lst name="earbud">
        <int name="tf">5</int>
      </lst>
      <lst name="headphones">
        <int name="tf">1</int>
      </lst>
      <lst name="usb">
        <int name="tf">1</int>
      </lst>
    </lst>
  </lst>
  ...............
</lst>

Apache Solr topTerms（LukeRequestHandler）未提供正確的令牌計數

問題描述

1 個解決方案

解決方案1
1 已采納 2011-11-12 17:22:46

Apache Solr topTerms（LukeRequestHandler）未提供正確的令牌計數

問題描述

1 個解決方案

解決方案1 1 已采納 2011-11-12 17:22:46

解決方案1
1 已采納 2011-11-12 17:22:46