繁体   English   中英

如何解决 nltk.corpus.words.words() 中的缺失词?

[英]How to solve missing words in nltk.corpus.words.words()?

我试图从文本中删除非英语单词。 问题 NLTK 单词语料库中缺少许多其他单词。

我的代码:

import pandas as pd
    
lst = ['I have equipped my house with a new [xxx] HP203X climatisation unit']
df = pd.DataFrame(lst, columns=['Sentences'])
    
import nltk 
nltk.download('words')
words = set(nltk.corpus.words.words())
    
df['Sentences'] = df['Sentences'].apply(lambda x: " ".join(w for w in nltk.wordpunct_tokenize(x) if w.lower() in (words)))
df

输入: I have equipped my house with a new [xxx] HP203X climatisation unit
结果: I have my house with a new unit

应该是: I have equipped my house with a new climatisation unit

我不知道如何完成nltk.corpus.words.words()以避免从句子中删除诸如equippedclimatisation化之类的词。

您可以使用

words.update(['climatisation', 'equipped'])

在这里, words是一个集合,这就是.extend(word_list)不起作用的原因。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM