從語料庫中刪除特殊字符

Question

我建立了一個數據，顯示標點符號及其頻率的所有術語。 然后，我應該從它們中刪除標點符號，並檢查是否還有剩余的標點符號。

newpapers1 <- tm_map(newpapers, removePunctuation)

punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

但是我仍然以這個特殊字符結束：

  Var1 Freq
1    ¡   25

有沒有辦法編寫將所有標點符號一起刪除的函數，或者將其刪除的函數？

編輯：檢查文檔后，標點符號仍然存在：

> newpapers1[[24]]$content

“這項研究采用了跨文化的視角，研究了本地觀眾如何看待和欣賞外國戲劇，以及這種心理過程如何根據媒體與觀眾之間的文化距離而有所不同。折扣理論表明，文化距離減少了韓國觀眾對戲劇性人物的感知認同，從而侵蝕了他們對外國戲劇的欣賞。不同於文化折扣理論，文化距離激發了韓國觀眾對新穎性的感知，從而提高了他們對外國戲劇的欣賞。這些發現的實際意義和潛在的局限性”

Answer 1

您可以像這樣使用gsub刪除標點符號。

newpapers1 <- tm_map(newpapers, removePunctuation)

my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

希望這可以幫助。

從語料庫中刪除特殊字符

問題描述

1 個解決方案

解決方案1
0 已采納 2018-11-06 01:51:04

從語料庫中刪除特殊字符

問題描述

1 個解決方案

解決方案1 0 已采納 2018-11-06 01:51:04

解決方案1
0 已采納 2018-11-06 01:51:04