[英]Python - How to remove a sentence if it contains spanish words
如标题所示,我有一个数据集,其中包含英语或西班牙语的字符串。 在进行预处理之前,我要删除任何包含西班牙语单词的行。
我是否应该在整个数据集中使用西班牙语语料库循环来查看句子中是否存在西班牙语单词?
任何帮助将非常感激。
我认为您要使用的库是langdetect 。 这是我刚刚整理的一些示例代码+输出。
from langdetect import detect
sentences = ["hello, how are you",
"Hola cómo estás",
"I've had a great day"]
for sentence in sentences:
print(detect(sentence)) # outputs 'en', 'es', 'en'
希望对您有所帮助,很高兴回答任何后续问题
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.