[英]Find similar words in strings in a for loop with python
我正在處理推文,並且經過文本處理后,代碼返回如下內容:
因此,sqlite數據庫將這些記錄標識為唯一。 我的問題是如何找到兩個字符串是否包含5個相似的單詞然后跳過呢? 我應該更改我的正則表達式代碼還是添加if statement
?
我的代碼:
clean1 = re.sub(r"(?:@\S*|#\S*|http(?=.*://)\S*)", "", tweet.text)
clean2 = re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t:])|(\w+:\/\/\S+)", " ", clean1)
final = re.sub(r'^RT[\s]+', '', clean2)
謝謝!
我認為正則表達式在這種情況下不會有所幫助
您可以這樣做來判斷兩行是否有5個相同的單詞
str1 = "Lorem ipsum dolor sit amaet vi"
str2 = "Lorem ipsum dolor sit amaet"
count = 0
str1_split = str1.split(" ")
for word in str2.split(" "):
if word in str1_split:
count += 1
print count
這是對兩個字符串中的相同單詞進行計數的方法:
a="Lorem ipsum dolor sit amaet vi"
b="Lorem ipsum dolor sit amaet"
count=0
for i,j in zip(a.split(),b.split()):
if i==j:
count+=1
print count
輸出:
5
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.