簡體   English   中英

從多個文件中刪除停用詞(NLTK)

[英]remove stop words (NLTK) from multiple files

我有幾個要使用的文本文件(本地文件夾),並希望從該文件夾中的每個文件中刪除停用詞,然后將新文件保存在子文件夾中。

一個文件的代碼:

import io
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english'))
file1 = open("1_1.txt")
line = file1.read()
words = line.split()
for r in words:
    if not r in stop_words:
        appendFile = open('subfolder/1_1.txt','a')
        appendFile.write(" "+r)
        appendFile.close()

我想我必須嘗試使用​​glob嗎? 但是我似乎並不了解文檔。 我也許應該降低()文字? 一定有一種超級簡單的方法,但是我只為一個句子或一個文件找到教程,從不為多個文件找到教程。

import io
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english'))
file1 = open("file1.txt")
line = file1.read()
words = word_tokenize(line)
words_witout_stop_words = ["" if word in stop_words else word for word in words]
new_words = " ".join(words_witout_stop_words).strip()
appendFile = open('subfolder/file1.txt','w')
appendFile.write(new_words)
appendFile.close()

現在,您可以在localfolder文件夾的文件名中添加一個循環,您可以使用了。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM