[英]Removing non-english words from a sentence in python
我已編寫了將查詢發送到Google並返回結果的代碼。 我從這些結果中提取摘要(摘要)以進行進一步處理。 但是,有時這些片段中會出現非英語單詞,我不希望它們出現。 例如:
/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/
我只想在這句話中加上“不加強調”的字眼。 我怎樣才能做到這一點? 謝謝
您可以將收到的單詞與英語單詞詞典進行比較,例如BSD系統上的/ usr / share / dict / words。
我認為google的結果大部分在語法上是正確的,但如果不是,則可能必須研究詞干才能與字典匹配。
您可以使用PyWordNet。 這是WordNet的python接口。 只需在空白處分割句子,然后檢查字典中是否有每個單詞。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.