簡體   English   中英

模糊匹配以找到句子Python中單詞的索引

[英]Fuzzy matching to find the index of a word in a sentence Python

我有以下加泰羅尼亞語的句子:

在執行某項訴訟之前 ,應在每項決定生效的前提下對執行機構進行處罰,同時應在一項刑事訴訟中予以確認,同時應在執行過程中繼續執行所有訴訟, 。

在標記該句子並將其變成單詞列表之后 ,我需要找到單詞“ actuar ”的索引,但是indexof()無法正常工作。 而且,我一點都不懂加泰羅尼亞語,但是我已經看到像“ l”這樣的情況也可能在我需要的單詞之前。

有沒有簡單的方法可以解決此問題?

您可以嘗試以下方法:

>>> sen = "en aquest sentit, la llei preveu que quan l'administració s'hagi abstingut d'actuar per sancionar una determinada conducta, com a conseqüència d'un procés penal, i aquest procediment acabi en sentència absolutòria, podrà iniciar o continuar el corresponent procediment administratiu."
>>> tokens = sen.split()
>>> tokens
['en', 'aquest', 'sentit,', 'la', 'llei', 'preveu', 'que', 'quan', "l'administraci\xc3\xb3", "s'hagi", 'abstingut', "d'actuar", 'per', 'sancionar', 'una', 'determinada', 'conducta,', 'com', 'a', 'conseq\xc3\xbc\xc3\xa8ncia', "d'un", 'proc\xc3\xa9s', 'penal,', 'i', 'aquest', 'procediment', 'acabi', 'en', 'sent\xc3\xa8ncia', 'absolut\xc3\xb2ria,', 'podr\xc3\xa0', 'iniciar', 'o', 'continuar', 'el', 'corresponent', 'procediment', 'administratiu.']
>>> def get_index(tokens, substr):
...    for i, tk in enumerate(tokens):
...       if substr in tk: return i
... 
>>> get_index(tokens, "actuar")
11

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM