在R中找到“near duplicatelicates”字符串

Question

我正在使用R來構建情感分析工具，我遇到了一些重復問題。 數據的主要來源是Twitter，看起來許多人通過在每條推文的末尾添加一些隨機文本來繞過Twitter自己的垃圾郵件過濾器。 例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh

我在最后得到了大量帶有不同隨機字符串的精確推文。 它們來自同一用戶或來自不同用戶。

是否有任何函數，如duplicated或unique ，返回2個字符串的接近程度，如果它們高於某個％，則忽略它們？

我知道這樣做最終會刪除那些說完全相同的人的真實推文，比如說

I love xxxx !

但是我將來會處理這個問題。

任何正確方向的提示將非常感謝！

Answer 1

我在上面提到了agrep 。 以下是您所解釋的示例。 通過改變max.distance我們可以調整被踢的內容：

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

在R中找到“near duplicatelicates”字符串

問題描述

1 個解決方案

解決方案1
6 已采納 2012-12-05 01:32:26

在R中找到“near duplicatelicates”字符串

問題描述

1 個解決方案

解決方案1 6 已采納 2012-12-05 01:32:26

解決方案1
6 已采納 2012-12-05 01:32:26