簡體   English   中英

查找哈希集中每個單詞在文本文檔中出現的次數

[英]Finding the number of times each word in a hashset occurs in text document

我正在用Java實現Naive Bayes文本分類算法。

到目前為止,我所做的是聲明一個名為Vocabulary的哈希集,該哈希集存儲給定文本文件(測試文件)中的所有唯一單詞。

算法中的步驟之一是將測試文件的所有成員連接到單個文本文件中。 事實證明,這是一個相當大的文件,其中包含每個文件中的文字。

現在,我必須用連接的文本文件計算詞匯表中每個單詞的出現次數。 我的第一個猜測是保留一種包含每個單詞的頻率的數組結構。 但是話又說回來,我將有太多的條目。

有人可以給我更好的建議嗎?

使用字典(HashMap),其中單詞是鍵,值是出現的次數。 如果HashSet適合內存,則HashMap也應如此。

您可以嘗試使用Tries,並且葉節點可以存儲單詞的頻率。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM