[英]Apache Solr topTerms (LukeRequestHandler) not giving correct token count
我正在使用Solr 4主干構建,已經有兩天了。
根據LukeRequestHandler的Wiki頁面(第一個示例輸出),我們應該獲取每個或任何指定字段的令牌計數。 我想用它來計算我所有文檔中每個單詞出現的次數。 例如,如果單詞“ is”出現在兩個MS Word文檔中,第一次出現兩次,第二次出現三次,則輸出如下:
<lst name="text">
<str name="type">text</str>
<str name="schema">IT-M---------</str>
<str name="index">(unstored field)</str>
<int name="docs">2</int>
<int name="distinct">42</int>
<lst name="topTerms">
<int name="is">5</int>
這是因為在兩個文檔中單詞“是”總共出現了五次。 但是,我實際上得到的是<int name="is">2</int>
。 我相信這是因為它明顯發生(由文件)共兩次。
但是同樣,根據Wiki,我們應該獲得所有文檔的總數,這是我真正想要的。
如何獲得所有索引文檔中每個單詞出現的總次數 ?
參考:
TermsComponent返回的文檔頻率是與該術語匹配的唯一文檔的數量,包括已標記為刪除但尚未從索引中刪除的所有文檔。
TermVectorComponent提供有關在字段上設置termVector屬性時存儲的文檔的信息。
TVC可以返回術語向量,術語頻率,逆文檔頻率以及位置和偏移信息。
tv.tf-返回文檔中每個術語的術語頻率信息。
<lst name="termVectors">
<lst name="doc-5">
<str name="uniqueKey">MA147LL/A</str>
<lst name="includes">
<lst name="cable">
<int name="tf">1</int>
</lst>
<lst name="earbud">
<int name="tf">5</int>
</lst>
<lst name="headphones">
<int name="tf">1</int>
</lst>
<lst name="usb">
<int name="tf">1</int>
</lst>
</lst>
</lst>
...............
</lst>
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.