繁体   English   中英

在Gensim中删除文档

[英]Removing documents in Gensim

我正在使用Gensim进行NLP任务,目前我有一个包含空文档的语料库。 我不希望重新运行代码,尽管这是一个选择,并且只想删除不包含任何内容的文档。 这些文档已经保存为TF-IDF语料库,并且想知道是否有一种方法可以删除这些空文档。 我可以弄清楚哪些文档是空的,但是语料库文件是一个迭代器,而不是任何类型的数据结构,即列表。 谢谢,

卡梅伦

您可以尝试将语料库转换为numpy矩阵,如下所示:

numpy_matrix = gensim.matutils.corpus2dense(corpus, num_terms=number_of_corpus_features)

然后,删除适当的列(所有零列的列)。 然后转换回gensim语料库以继续:

corpus = gensim.matutils.Dense2Corpus(numpy_matrix)

如果您打算在当前上下文中构建更多的语料库,那么修改语料库创建过程可能是个好主意,这样就不必每次都这样做,但是我相信您已经想到了。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM