繁体   English   中英

R 中的文本挖掘:创建语料库会创建不寻常的文本

[英]Text Mining in R: Creating a Corpus creates unusual text

我正在阅读一个文本文件和下面的代码。 它读起来很好,但在整个语料库中的随机位置放置了一个 \t。

示例:文本文件中的原始文件5。如果您以个人身份回复,.....在语料库“5.\t如果您以个人身份回复,...

或 Q1。 我们可以从其他地方学到什么教训......“Q1.\t我们可以从其他地方学到什么教训......

似乎一个标签被翻译成语料库中的 \t

任何想法如何解决这一问题?

谢谢

# set pathway to text files
folder<-"C:\\xxxxxx\\Text files"
folder
# lists all files in pathway 
list.files(path=folder)
# filters text files only
list.files(path=folder, pattern="*.txt")

# set vector
filelist<-list.files(path=folder, pattern="*.txt")

# assign pathways to files
paste(folder, "\\", filelist)
# removes separations in pathways by setting as empty
filelist<-paste(folder, "\\", filelist, sep="")
filelist

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")

gsub()是一个很棒的 function ,它将用不同的字符串替换模式的所有实例。 对于您的情况,这应该会有所帮助:

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")
# replace all '\t' with '   '
corpus<-gsub(pattern = '\\\t', replacement = '', corpus)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM