簡體   English   中英

在R中找到“near duplicatelicates”字符串

[英]Find “near duplicates” strings in R

我正在使用R來構建情感分析工具,我遇到了一些重復問題。 數據的主要來源是Twitter,看起來許多人通過在每條推文的末尾添加一些隨機文本來繞過Twitter自己的垃圾郵件過濾器。 例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh

我在最后得到了大量帶有不同隨機字符串的精確推文。 它們來自同一用戶或來自不同用戶。

是否有任何函數,如duplicatedunique ,返回2個字符串的接近程度,如果它們高於某個%,則忽略它們?

我知道這樣做最終會刪除那些說完全相同的人的真實推文,比如說

I love xxxx !

但是我將來會處理這個問題。

任何正確方向的提示將非常感謝!

我在上面提到了agrep 以下是您所解釋的示例。 通過改變max.distance我們可以調整被踢的內容:

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM