[英]Remove special character from corpus
我建立了一個數據,顯示標點符號及其頻率的所有術語。 然后,我應該從它們中刪除標點符號,並檢查是否還有剩余的標點符號。
newpapers1 <- tm_map(newpapers, removePunctuation)
punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p
但是我仍然以這個特殊字符結束:
Var1 Freq
1 ¡ 25
有沒有辦法編寫將所有標點符號一起刪除的函數,或者將其刪除的函數?
編輯:檢查文檔后,標點符號仍然存在:
> newpapers1[[24]]$content
“這項研究采用了跨文化的視角,研究了本地觀眾如何看待和欣賞外國戲劇,以及這種心理過程如何根據媒體與觀眾之間的文化距離而有所不同。折扣理論表明,文化距離減少了韓國觀眾對戲劇性人物的感知認同,從而侵蝕了他們對外國戲劇的欣賞。不同於文化折扣理論,文化距離激發了韓國觀眾對新穎性的感知,從而提高了他們對外國戲劇的欣賞。這些發現的實際意義和潛在的局限性”
您可以像這樣使用gsub
刪除標點符號。
newpapers1 <- tm_map(newpapers, removePunctuation)
my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p
希望這可以幫助。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.