簡體   English   中英

從python的句子中刪除非英語單詞

[英]Removing non-english words from a sentence in python

我已編寫了將查詢發送到Google並返回結果的代碼。 我從這些結果中提取摘要(摘要)以進行進一步處理。 但是,有時這些片段中會出現非英語單詞,我不希望它們出現。 例如:

/\u02b0w\u025bn w\u025bn unstressed \u02b0w\u0259n w\u0259n/ 

我只想在這句話中加上“不加強調”的字眼。 我怎樣才能做到這一點? 謝謝

PyEnchant對您來說可能是一個簡單的選擇。 我不知道它的速度,但是您可以執行以下操作:

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>>

您可以在此處找到一個教程,該教程還提供了一些返回建議的選項,您可以再次為其他查詢或其他內容提供建議。 另外,您可以檢查結果是否為latin-1(is_utf8()准分子,不知道is_latin-1()是否也是如此,也許可以使用Enca之類的方法來檢測文本文件的編碼,這取決於他們的語言。)

您可以將收到的單詞與英語單詞詞典進行比較,例如BSD系統上的/ usr / share / dict / words。

我認為google的結果大部分在語法上是正確的,但如果不是,則可能必須研究詞干才能與字典匹配。

您可以使用PyWordNet。 這是WordNet的python接口。 只需在空白處分割句子,然后檢查字典中是否有每個單詞。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM