[英]Searching for Unicode characters in Python
我正在基于Python / NLTK的非英语unicode文本的NLP项目。 为此,我需要在句子中搜索unicode字符串。
有一个.txt文件,其中保存了一些非英语的unicode句子。 我使用NLTK PunktSentenceTokenizer破坏了它们并将其保存在python列表中。
sentences = PunktSentenceTokenizer().tokenize(text)
现在我可以遍历列表并分别获取每个sentence
。
我需要做的是遍历该sentence
并确定哪个单词具有给定的unicode字符。
范例-
sentence = 'AASFG BBBSDC FEKGG SDFGF'
假设上面的文本是非英语unicode,我需要找到以GF
结尾的单词,然后返回整个单词(可能是该单词的索引)。
search = 'SDFGF'
同样,我需要找到以BB
开头的单词。
search2 = 'BBBSDC'
如果我理解正确,则只需将句子拆分成单词,循环遍历每个单词,然后检查它是否以所需的字符结尾或以开头,例如:
>>> sentence = ['AASFG', 'BBBSDC', 'FEKGG', 'SDFGF']
>>> [word for word in sentence.split() if word.endswith("GF")]
['SDFGF']
sentence.split()
也许可以用类似替代nltk.tokenize.word_tokenize(sentence)
更新 ,关于评论:
如何在其前面和后面获得单词
enumerate
函数可用于为每个单词赋予一个数字,如下所示:
>>> print list(enumerate(sentence))
[(0, 'AASFG'), (1, 'BBBSDC'), (2, 'FEKGG'), (3, 'SDFGF')]
然后,如果执行相同的循环,但保留索引:
>>> results = [(idx, word) for (idx, word) in enumerate(sentence) if word.endswith("GG")]
>>> print results
[(2, 'FEKGG')]
..您可以使用索引获取下一个或上一个项目:
>>> for r in results:
... r_idx = r[0]
... print "Prev", sentence[r_idx-1]
... print "Next", sentence[r_idx+1]
...
Prev BBBSDC
Next SDFGF
您需要处理匹配第一个或最后一个单词的情况( if r_idx == 0
, if r_idx == len(sentence)
)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.