[英]Removing documents in Gensim
我正在使用Gensim进行NLP任务,目前我有一个包含空文档的语料库。 我不希望重新运行代码,尽管这是一个选择,并且只想删除不包含任何内容的文档。 这些文档已经保存为TF-IDF语料库,并且想知道是否有一种方法可以删除这些空文档。 我可以弄清楚哪些文档是空的,但是语料库文件是一个迭代器,而不是任何类型的数据结构,即列表。 谢谢,
卡梅伦
您可以尝试将语料库转换为numpy矩阵,如下所示:
numpy_matrix = gensim.matutils.corpus2dense(corpus, num_terms=number_of_corpus_features)
然后,删除适当的列(所有零列的列)。 然后转换回gensim语料库以继续:
corpus = gensim.matutils.Dense2Corpus(numpy_matrix)
如果您打算在当前上下文中构建更多的语料库,那么修改语料库创建过程可能是个好主意,这样就不必每次都这样做,但是我相信您已经想到了。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.