[英]Extract English words from a text in R
我有一個文本,我需要從中提取所有英語單詞。 例如我想要一個可以分析向量的函數
vector <- c("picture", "carpet", "lamp", "notaword", "anothernotaword")
並僅返回此向量中的英語單詞,即“圖片”,“地毯”,“燈”
我確實理解“英語單詞”的定義取決於字典,但是即使使用基本字典也會讓我滿意。
您可以使用我維護qdapDictionaries的軟件包(無需安裝父軟件包qdap )。 如果您的數據比較復雜,則可能需要使用tolower
等工具才能使其正常工作。 這里的想法基本上是看一個已知單詞列表?GradyAugmented
與您的單詞相交的地方。 這是兩種非常相似的方法,第一種可能會根據數據而稍快一些:
vector <- c("picture", "carpet", "lamp", "notaword", "anothernotaword")
library(qdapDictionaries)
vector[vector %in% GradyAugmented]
## [1] "picture" "carpet" "lamp"
intersect(vector, GradyAugmented)
## [1] "picture" "carpet" "lamp"
您在安裝qdap聲音時收到的錯誤聽起來像@Ben Bolker是正確的。 您將需要安裝更高版本的data.table (建議使用最新版本)(使用packageVersion("data.table")
進行檢查)。 這是我的監督,不需要最低版本的data.table ,我認為setDT
( data.table包中的函數)始終存在,但似乎不在您的版本中。 但是,要解決此特定問題,您無需安裝父qdap軟件包,只需安裝qdapDictionaries 即可 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.