簡體   English   中英

從語料庫中刪除特殊字符

[英]Remove special character from corpus

我建立了一個數據,顯示標點符號及其頻率的所有術語。 然后,我應該從它們中刪除標點符號,並檢查是否還有剩余的標點符號。

newpapers1 <- tm_map(newpapers, removePunctuation)

punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

但是我仍然以這個特殊字符結束:

  Var1 Freq
1    ¡   25

有沒有辦法編寫將所有標點符號一起刪除的函數,或者將其刪除的函數?

編輯:檢查文檔后,標點符號仍然存在:

> newpapers1[[24]]$content

“這項研究采用了跨文化的視角,研究了本地觀眾如何看待和欣賞外國戲劇,以及這種心理過程如何根據媒體與觀眾之間的文化距離而有所不同。折扣理論表明,文化距離減少了韓國觀眾對戲劇性人物的感知認同,從而侵蝕了他們對外國戲劇的欣賞。不同於文化折扣理論,文化距離激發了韓國觀眾對新穎性的感知,從而提高了他們對外國戲劇的欣賞。這些發現的實際意義和潛在的局限性”


您可以像這樣使用gsub刪除標點符號。

newpapers1 <- tm_map(newpapers, removePunctuation)

my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

希望這可以幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM