簡體   English   中英

使用python在for循環中的字符串中找到相似的單詞

[英]Find similar words in strings in a for loop with python

我正在處理推文,並且經過文本處理后,代碼返回如下內容:

  • Lorem ipsum dolor西特阿梅特六
  • Lorem ipsum dolor坐在amaet
  • Lorem ipsum dolor坐在amaet通過

因此,sqlite數據庫將這些記錄標識為唯一。 我的問題是如何找到兩個字符串是否包含5個相似的單詞然后跳過呢? 我應該更改我的正則表達式代碼還是添加if statement

我的代碼:

        clean1 = re.sub(r"(?:@\S*|#\S*|http(?=.*://)\S*)", "", tweet.text)
        clean2 = re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t:])|(\w+:\/\/\S+)", " ", clean1)
        final = re.sub(r'^RT[\s]+', '', clean2)

謝謝!

我認為正則表達式在這種情況下不會有所幫助

您可以這樣做來判斷兩行是否有5個相同的單詞

str1 = "Lorem ipsum dolor sit amaet vi" 
str2 = "Lorem ipsum dolor sit amaet"

count = 0 
str1_split = str1.split(" ")
for word in str2.split(" "):
    if word in str1_split:
        count += 1

print count

這是對兩個字符串中的相同單詞進行計數的方法:

a="Lorem ipsum dolor sit amaet vi"
b="Lorem ipsum dolor sit amaet"
count=0
for i,j in zip(a.split(),b.split()):
    if i==j:
        count+=1
print count

輸出:

5

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM