繁体   English   中英

删除词汇表 TF-IDF 中单次出现的单词

[英]Remove single occurrences of words in vocabulary TF-IDF

我试图删除在我的词汇表中出现一次的单词以减少我的词汇量。 我在我的数据框中使用 sklearn TfidfVectorizer() 和 fit_transform 函数。

tfidf = TfidfVectorizer()  
tfs = tfidf.fit_transform(df['original_post'].values.astype('U')) 

我的第一个想法是tfidf向量化器中的预处理器字段或使用机器学习之前的预处理包。

任何进一步实施的提示或链接?

您正在从 scikit-learn TfidfVectorizer的文档中寻找min_df参数(最小频率):

min_df : 在 [0.0, 1.0] 或 int 范围内浮动,默认值=1

在构建词汇表时,忽略文档频率严格低于给定阈值的术语。 该值在文献中也称为截止值。 如果是float,该参数代表文档的比例,整数绝对计数。 如果词汇表不是 None,则忽略此参数。

# remove words occuring less than 5 times
tfidf = TfidfVectorizer(min_df=5)

您还可以删除常用词:

# remove words occuring in more than half the documents
tfidf = TfidfVectorizer(max_df=0.5)

您还可以像这样删除停用词:

tfidf = TfidfVectorizer(stop_words='english')

ShmulikA 的答案很可能效果很好,但会根据文档频率删除单词。 因此,如果特定单词仅在 1 个文档中出现 200 次,它将被删除。 TF-IDF 向量化器不能准确提供您想要的。 你必须:

  1. 使矢量化器适合您的语料库。 从向量化器中提取完整的词汇表
  2. 把这些词当作新词典的关键词。
  3. 计算每个单词的出现次数:

for every document in corpus: for word in document: vocabulary[word] += 1

现在,找出是否有值 = 1,从字典中删除这些条目。 将键放入列表并将列表作为参数传递给 TF-IDF 向量化器。
它将需要大量循环,也许只需使用 min_df,这在实践中效果很好。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM