使用单个文件（网页）创建语料库

Question

我想从我的计算机中读取一个文件（该文件是html文档）并将其存储在语料库中（我正在使用软件包tm ）。

您有解决方案吗？

这是我尝试的：

data<-read.csv(fileName)
c2<-Corpus(VectorSource(data))

它通常可以正常工作，但是我有时会收到错误：列数多于列名

我想我不应该在网页上使用read.csv ，因为我没有找到更好的解决方案。

感谢您的帮助=）

Answer 1

网页绝对不符合CSV规范。 相反，您可能想使用XML包中的readHTMLTable函数。

这是从实际网页中获取的，但应该是相同的想法

file <- "http://xkcd.com/"
dat <- readLines(file)
c2 <- Corpus(VectorSource(dat))