繁体   English   中英

模糊匹配以找到句子Python中单词的索引

[英]Fuzzy matching to find the index of a word in a sentence Python

我有以下加泰罗尼亚语的句子:

在执行某项诉讼之前 ,应在每项决定生效的前提下对执行机构进行处罚,同时应在一项刑事诉讼中予以确认,同时应在执行过程中继续执行所有诉讼, 。

在标记该句子并将其变成单词列表之后 ,我需要找到单词“ actuar ”的索引,但是indexof()无法正常工作。 而且,我一点都不懂加泰罗尼亚语,但是我已经看到像“ l”这样的情况也可能在我需要的单词之前。

有没有简单的方法可以解决此问题?

您可以尝试以下方法:

>>> sen = "en aquest sentit, la llei preveu que quan l'administració s'hagi abstingut d'actuar per sancionar una determinada conducta, com a conseqüència d'un procés penal, i aquest procediment acabi en sentència absolutòria, podrà iniciar o continuar el corresponent procediment administratiu."
>>> tokens = sen.split()
>>> tokens
['en', 'aquest', 'sentit,', 'la', 'llei', 'preveu', 'que', 'quan', "l'administraci\xc3\xb3", "s'hagi", 'abstingut', "d'actuar", 'per', 'sancionar', 'una', 'determinada', 'conducta,', 'com', 'a', 'conseq\xc3\xbc\xc3\xa8ncia', "d'un", 'proc\xc3\xa9s', 'penal,', 'i', 'aquest', 'procediment', 'acabi', 'en', 'sent\xc3\xa8ncia', 'absolut\xc3\xb2ria,', 'podr\xc3\xa0', 'iniciar', 'o', 'continuar', 'el', 'corresponent', 'procediment', 'administratiu.']
>>> def get_index(tokens, substr):
...    for i, tk in enumerate(tokens):
...       if substr in tk: return i
... 
>>> get_index(tokens, "actuar")
11

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM