[英]Python - How to remove a sentence if it contains spanish words
如標題所示,我有一個數據集,其中包含英語或西班牙語的字符串。 在進行預處理之前,我要刪除任何包含西班牙語單詞的行。
我是否應該在整個數據集中使用西班牙語語料庫循環來查看句子中是否存在西班牙語單詞?
任何幫助將非常感激。
我認為您要使用的庫是langdetect 。 這是我剛剛整理的一些示例代碼+輸出。
from langdetect import detect
sentences = ["hello, how are you",
"Hola cómo estás",
"I've had a great day"]
for sentence in sentences:
print(detect(sentence)) # outputs 'en', 'es', 'en'
希望對您有所幫助,很高興回答任何后續問題
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.