R CSV文件中的文本挖掘文档

Question

首先，我要道歉以重复13年8月1日提出的问题。 但是我无法对原始问题发表评论，因为我必须有50个声誉才能能够发表我没有的评论。 可以从CSV文件的R文本挖掘文档（每个文档一行）中检索原始问题。

我正在尝试使用R中的tm包，并有一个文章摘要的CSV文件，每一行都是不同的摘要。 我希望每一行都是语料库中的不同文档。 我的数据集中有2,000行。

我按照Ben先前的建议运行以下代码：

# change this file location to suit your machine
file_loc <- "C:/Users/.../docs.csv"
# change TRUE to FALSE if you have no column headings in the CSV
x <- read.csv(file_loc, header = TRUE)
require(tm)
corp <- Corpus(DataframeSource(x))
docs <- DocumentTermMatrix(corp)

当我检查课程时：

# checking class
class(docs)
[1] "DocumentTermMatrix"    "simple_triplet_matrix"

问题是tm转换不适用于此类：

# Preparing the Corpus
# Simple Transforms
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/")

我收到此错误：

Error in UseMethod("tm_map", x) : 
no applicable method for 'tm_map' applied to an object of class "c('DocumentTermMatrix', 'simple_triplet_matrix')"

或其他代码：

docs <- tm_map(docs, toSpace, "/|@|nn|")

我犯了同样的错误：

Error in UseMethod("tm_map", x) : 
no applicable method for 'tm_map' applied to an object of class "c('DocumentTermMatrix', 'simple_triplet_matrix')"

您的帮助将不胜感激。

Answer 1

编码

docs <- tm_map(docs, toSpace, "/|@|nn|")

必须替换为

docs <- tm_map(docs, toSpace, "/|@|\\|").

然后它将正常工作。

R CSV文件中的文本挖掘文档

问题描述

1 个解决方案

解决方案1
0 已采纳 2016-04-01 07:02:16

R CSV文件中的文本挖掘文档

问题描述

1 个解决方案

解决方案1 0 已采纳 2016-04-01 07:02:16

解决方案1
0 已采纳 2016-04-01 07:02:16