繁体   English   中英

R tm removeWords停用词未删除停用词

[英]R tm removeWords stopwords is not removing stopwords

我正在使用R tm包,发现删除文本元素的tm_map函数几乎没有对我tm_map

例如,通过“工作”,我将运行:

d <- tm_map(d, removeWords, stopwords('english'))

但是当我跑步时

ddtm <- DocumentTermMatrix(d, control = list(
    weighting = weightTfIdf,
    minWordLength = 2))
findFreqTerms(ddtm, 10)

我仍然得到:

[1] the     this

...等等,还有其他停用词。

我看不到任何错误,表明出现了问题。 有谁知道这是什么,以及如何正确执行停用词删除功能,或者诊断出我的问题所在?

UPDATE

之前有一个我没有发现的错误:

Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

是Weka删除了tm中的停用词,对吗? 所以这可能是我的问题?

更新2

这个 ,这个错误似乎是无关的。 这是关于数据库,而不是停用词。

没关系,它正在工作。 我做了以下最小示例:

data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]

我已经连续使用了几个tm_map表达式。 原来,我删除空格,标点符号等的顺序重新组合了新的停用词。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM