繁体   English   中英

文本挖掘-包含列表的单个列中的单词频率

[英]Text mining - word frequency from a single column containing list

这是我的数据集:

https://app.box.com/s/yotsy58ud2k9yk7vs7sj8ksc0favhevv

我正在尝试从具有以下结构的单列创建标签的频率表:

在此处输入图片说明

为了简单起见,我尝试使用qdap ,但结果不正确

library(qdap)
tags_df <- read.csv(file.choose())
freq_terms(tags_df$tags)

只是改进(创建数据框和排序)Rui提供的解决方案:

sp <- unlist(strsplit(as.character(unlist(tags_df$tags)),'^c\\(|,|"|\\)'))

inx <- sapply(sp, function(y) nchar(trimws(y)) > 0 & !is.na(y))

data <- as_data_frame(table(tolower(sp[inx])))

data <- data[with(data,order(-n)),]

data <- data[1:10,]

如果您想要或需要的只是频率计数,则无需外部程序包,base R有一个功能table

sp <- unlist(strsplit(as.character(unlist(tags_df$tags)), '^c\\(|,|"|\\)'))
inx <- sapply(sp, function(y) nchar(trimws(y)) > 0 & !is.na(y))
table(sp[inx])
#    Android        CSS3      Design      Hiring  JavaScript      NextJS 
#          1           1           1           1           4           1 
#     NodeJS programming Programming     ReactJS     Testing          UI 
#          1           1           3           3           1           1 
#         UX   WebDesign      webdev      WebDev 
#          1           2           1           4

编辑。

我刚刚意识到,您已经将"programming""Programming""webdev""WebDev"作为标记,也许您想进行不区分大小写的计数。 如果是这种情况,请尝试

table(tolower(sp[inx]))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM