從R中的文本中提取英語單詞

Question

我有一個文本，我需要從中提取所有英語單詞。 例如我想要一個可以分析向量的函數

vector <- c("picture", "carpet", "lamp", "notaword", "anothernotaword")

並僅返回此向量中的英語單詞，即“圖片”，“地毯”，“燈”

我確實理解“英語單詞”的定義取決於字典，但是即使使用基本字典也會讓我滿意。

Answer 1

您可以使用我維護qdapDictionaries的軟件包（無需安裝父軟件包qdap ）。 如果您的數據比較復雜，則可能需要使用tolower等工具才能使其正常工作。 這里的想法基本上是看一個已知單詞列表?GradyAugmented與您的單詞相交的地方。 這是兩種非常相似的方法，第一種可能會根據數據而稍快一些：

vector <- c("picture", "carpet", "lamp", "notaword", "anothernotaword")

library(qdapDictionaries)
vector[vector %in% GradyAugmented]

## [1] "picture" "carpet"  "lamp"

intersect(vector, GradyAugmented)

## [1] "picture" "carpet"  "lamp"

您在安裝qdap聲音時收到的錯誤聽起來像@Ben Bolker是正確的。 您將需要安裝更高版本的data.table （建議使用最新版本）（使用packageVersion("data.table")進行檢查）。 這是我的監督，不需要最低版本的data.table ，我認為setDT （ data.table包中的函數）始終存在，但似乎不在您的版本中。 但是，要解決此特定問題，您無需安裝父qdap軟件包，只需安裝qdapDictionaries 即可。

從R中的文本中提取英語單詞

問題描述

1 個解決方案

解決方案1
6 已采納 2014-11-03 14:24:19

從R中的文本中提取英語單詞

問題描述

1 個解決方案

解決方案1 6 已采納 2014-11-03 14:24:19

解決方案1
6 已采納 2014-11-03 14:24:19