簡體   English   中英

Apache Solr topTerms(LukeRequestHandler)未提供正確的令牌計數

[英]Apache Solr topTerms (LukeRequestHandler) not giving correct token count

我正在使用Solr 4主干構建,已經有兩天了。

根據LukeRequestHandler的Wiki頁面(第一個示例輸出),我們應該獲取每個或任何指定字段的令牌計數。 我想用它來計算我所有文檔中每個單詞出現的次數。 例如,如果單詞“ is”出現在兩個MS Word文檔中,第一次出現兩次,第二次出現三次,則輸出如下:

<lst name="text">
  <str name="type">text</str>
  <str name="schema">IT-M---------</str>
  <str name="index">(unstored field)</str>
  <int name="docs">2</int>
  <int name="distinct">42</int>
  <lst name="topTerms">
    <int name="is">5</int>

這是因為在兩個文檔中單詞“是”總共出現了五次。 但是,我實際上得到的是<int name="is">2</int> 我相信這是因為它明顯發生(由文件)共兩次。

但是同樣,根據Wiki,我們應該獲得所有文檔的總數,這是我真正想要的。


如何獲得所有索引文檔中每個單詞出現總次數


參考:

http://wiki.apache.org/solr/LukeRequestHandler

TermsComponent返回的文檔頻率是與該術語匹配的唯一文檔的數量,包括已標記為刪除但尚未從索引中刪除的所有文檔。

TermVectorComponent提供有關在字段上設置termVector屬性時存儲的文檔的信息。
TVC可以返回術語向量,術語頻率,逆文檔頻率以及位置和偏移信息。

tv.tf-返回文檔中每個術語的術語頻率信息。

<lst name="termVectors">
  <lst name="doc-5">
    <str name="uniqueKey">MA147LL/A</str>
    <lst name="includes">
      <lst name="cable">
        <int name="tf">1</int>
      </lst>
      <lst name="earbud">
        <int name="tf">5</int>
      </lst>
      <lst name="headphones">
        <int name="tf">1</int>
      </lst>
      <lst name="usb">
        <int name="tf">1</int>
      </lst>
    </lst>
  </lst>
  ...............
</lst>

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM