簡體   English   中英

獲取文本字段中最常用的術語

[英]Get the most frequent terms of text field

如何獲取文本字段的所有單個標記及其文檔頻率的列表。 我希望這可以構建一個特定於域的頻繁(因此無用)停用詞列表。

這個問題涵蓋了我目前找到的所有方法,但是

  • “關鍵字”數據類型不是一個選項,因為我對單個術語感興趣(因此標記化是必要的)
  • “重要術語聚合”不是一種選擇,因為我對最常見的術語感興趣,而不是最重要的術語
  • “termvector”不是一個選項,因為我需要它作為孔索引,而不僅僅是一個特定的文檔或一個小子集。

您必須在您的字段上啟用 field_data 才能執行此操作。 但要小心,它會對使用的堆內存產生很大影響。

https://www.elastic.co/guide/en/elasticsearch/reference/current/fielddata.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM