R 中的文本挖掘：创建语料库会创建不寻常的文本

Question

我正在阅读一个文本文件和下面的代码。 它读起来很好，但在整个语料库中的随机位置放置了一个 \t。

示例：文本文件中的原始文件5。如果您以个人身份回复，.....在语料库“5.\t如果您以个人身份回复，...

或 Q1。 我们可以从其他地方学到什么教训......“Q1.\t我们可以从其他地方学到什么教训......

似乎一个标签被翻译成语料库中的 \t

任何想法如何解决这一问题？

谢谢

# set pathway to text files
folder<-"C:\\xxxxxx\\Text files"
folder
# lists all files in pathway 
list.files(path=folder)
# filters text files only
list.files(path=folder, pattern="*.txt")

# set vector
filelist<-list.files(path=folder, pattern="*.txt")

# assign pathways to files
paste(folder, "\\", filelist)
# removes separations in pathways by setting as empty
filelist<-paste(folder, "\\", filelist, sep="")
filelist

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")

Answer 1

gsub()是一个很棒的 function ，它将用不同的字符串替换模式的所有实例。 对于您的情况，这应该会有所帮助：

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")
# replace all '\t' with '   '
corpus<-gsub(pattern = '\\\t', replacement = '', corpus)

R 中的文本挖掘：创建语料库会创建不寻常的文本

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-05-28 02:34:44

R 中的文本挖掘：创建语料库会创建不寻常的文本

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-05-28 02:34:44

解决方案1
2 已采纳 2020-05-28 02:34:44