[英]Find “near duplicates” strings in R
我正在使用R來構建情感分析工具,我遇到了一些重復問題。 數據的主要來源是Twitter,看起來許多人通過在每條推文的末尾添加一些隨機文本來繞過Twitter自己的垃圾郵件過濾器。 例如
Click xxxxx to buy the amazing xxxxx for FREE ugjh
我在最后得到了大量帶有不同隨機字符串的精確推文。 它們來自同一用戶或來自不同用戶。
是否有任何函數,如duplicated
或unique
,返回2個字符串的接近程度,如果它們高於某個%,則忽略它們?
我知道這樣做最終會刪除那些說完全相同的人的真實推文,比如說
I love xxxx !
但是我將來會處理這個問題。
任何正確方向的提示將非常感謝!
我在上面提到了agrep
。 以下是您所解釋的示例。 通過改變max.distance
我們可以調整被踢的內容:
comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"
agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.