如何使用R從一列中提取多詞單元？

Question

我的數據是這樣的：

話題	措施
氣候變化	減少排放
大流行	接種疫苗
慈善機構	呼吁捐款

現在我想提取一列中的所有多字單元（MWU），即：

topic_mwu<-c("氣候變化")

measure_mwu<-c("減少排放","呼吁捐款")

R中是否有自動提取這些MWU的功能？ 基本上我只需要識別那些至少包括一個空格的條目，所以我正在考慮一個 RegEx - hack..

我非常感謝您的幫助！

Answer 1

下面的代碼應該工作：

#your dataframe
dt <- matrix(c("reduce emission", "call for donations", "pandemic", "climate change", "donations", "charity"), ncol =2)

#make it a vector
dt <- as.vector(dt)

#if the table is very big, you can do unique() to remove duplicates
dt <- unique(dt)

#get the MWU
dt[unlist(lapply(strsplit(dt,split = " "), length)) > 1]

這就是你要找的嗎？

如何使用R從一列中提取多詞單元？

問題描述

1 個解決方案

解決方案1
0 已采納 2021-07-05 11:33:27

如何使用R從一列中提取多詞單元？

問題描述

1 個解決方案

解決方案1 0 已采納 2021-07-05 11:33:27

解決方案1
0 已采納 2021-07-05 11:33:27