簡體   English   中英

在Solr中獲取文檔子集的總詞頻

[英]Getting total word frequencies for a subset of documents in Solr

我對使用Solr分析文檔並獲取匹配特定條件的所有文檔的詞頻感興趣。

我嘗試了termVectorComponent,但是我只能獲得單個文檔的術語頻率,而不能獲得整個文檔組的總和。

例如,給出以下數據:

  {
    "id": "1",
    "category": "cat1",
    "includes": "The green car.",
  },
  {
    "id": "2",
    "category": "cat1",
    "includes": "The red car.",
  },
  {
    "id": "3",
    "category": "cat2",
    "includes": "The black car.",
  }

我希望能夠獲得每個類別的總學期頻率計數。 例如

<category name="cat1">
   <lst name="the">2</lst>
   <lst name="car">2</lst>
   <lst name="green">1</lst>
   <lst name="red">1</lst>
</category>
<category name="cat2">
   <lst name="the">1</lst>
   <lst name="car">1</lst>
   <lst name="black">1</lst>
</category>

我嘗試使用構面,但無法使它們結合單個文檔的字數統計,如上所示。 我注意到termVector支持為整個索引中使用的術語提供了文檔頻率,但這對我沒有用。 我只需要文檔子集的總頻率計數。

是否有人建議如何從Solr / Lucene獲取此信息?

提前致謝。

我找到了這個鏈接; 您將必須修改TermsComponent.java 鏈接 (也許是SolrJ?)

我從來沒有嘗試過,但是您也可以使用一個功能查詢(即sum)來累加tv.df值嗎? 這是功能查詢的完整列表鏈接

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM