[英]How to remove stop words from list of lists in python
我有一組格式為列表的推文。 我使用的代碼用於刪除停用詞,但它不返回列表列表,而是返回一個大列表。 我需要它作為一個列表列表,以便以后做天真的貝葉斯,所以我該如何改變呢?
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
OAGTokensWOStop = []
for i in range(2708):
for tweet in OAG_Tokenized[i]:
if tweet not in stop_words:
OAGTokensWOStop.append(tweet)
我在大名單上收到所有單詞sans stop words,但我需要將輸出保留為列表列表。
append(tweet)
OAGTokensWOStop
文內容附加到OAGTokensWOStop
列表中。
您希望它將推文附加為列表,因此您應該這樣做:
import numpy as np
OAGTokensWOStop = []
for i in range(2708):
for tweet in OAG_Tokenized[i]:
if tweet not in stop_words:
OAGTokensWOStop.append(np.array(tweet))
在這里,您將推文附加為列表中的numpy數組。 因此創建列表列表。
我猜。
你必須在for
循環中創建空列表,在這個列表中添加單詞,最后在循環結束時將列表添加到OAGTokensWOStop
。
OAGTokensWOStop = []
for i in range(2708):
row = []
for tweet in OAG_Tokenized[i]:
if tweet not in stop_words:
row.append(tweet)
OAGTokensWOStop.append(row)
您正在為自己創建一個列表。
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
OAGTokensWOStop = []
for item in OAG_Tokenized:
temp = []
for tweet in item:
if tweet not in stop_words:
temp.append(tweet)
OAGTokensWOStop.append(temp)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.