[英]Getting total word frequencies for a subset of documents in Solr
我對使用Solr分析文檔並獲取匹配特定條件的所有文檔的詞頻感興趣。
我嘗試了termVectorComponent,但是我只能獲得單個文檔的術語頻率,而不能獲得整個文檔組的總和。
例如,給出以下數據:
{
"id": "1",
"category": "cat1",
"includes": "The green car.",
},
{
"id": "2",
"category": "cat1",
"includes": "The red car.",
},
{
"id": "3",
"category": "cat2",
"includes": "The black car.",
}
我希望能夠獲得每個類別的總學期頻率計數。 例如
<category name="cat1">
<lst name="the">2</lst>
<lst name="car">2</lst>
<lst name="green">1</lst>
<lst name="red">1</lst>
</category>
<category name="cat2">
<lst name="the">1</lst>
<lst name="car">1</lst>
<lst name="black">1</lst>
</category>
我嘗試使用構面,但無法使它們結合單個文檔的字數統計,如上所示。 我注意到termVector支持為整個索引中使用的術語提供了文檔頻率,但這對我沒有用。 我只需要文檔子集的總頻率計數。
是否有人建議如何從Solr / Lucene獲取此信息?
提前致謝。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.