簡體   English   中英

從R中的文本中提取英語單詞

[英]Extract English words from a text in R

我有一個文本,我需要從中提取所有英語單詞。 例如我想要一個可以分析向量的函數

vector <- c("picture", "carpet", "lamp", "notaword", "anothernotaword")

並僅返回此向量中的英語單詞,即“圖片”,“地毯”,“燈”

我確實理解“英語單詞”的定義取決於字典,但是即使使用基本字典也會讓我滿意。

您可以使用我維護qdapDictionaries的軟件包(無需安裝父軟件包qdap )。 如果您的數據比較復雜,則可能需要使用tolower等工具才能使其正常工作。 這里的想法基本上是看一個已知單詞列表?GradyAugmented與您的單詞相交的地方。 這是兩種非常相似的方法,第一種可能會根據數據而稍快一些:

vector <- c("picture", "carpet", "lamp", "notaword", "anothernotaword")

library(qdapDictionaries)
vector[vector %in% GradyAugmented]

## [1] "picture" "carpet"  "lamp"

intersect(vector, GradyAugmented)

## [1] "picture" "carpet"  "lamp"   

您在安裝qdap聲音時收到的錯誤聽起來像@Ben Bolker是正確的。 您將需要安裝更高版本的data.table (建議使用最新版本)(使用packageVersion("data.table")進行檢查)。 這是我的監督,不需要最低版本的data.table ,我認為setDTdata.table包中的函數)始終存在,但似乎不在您的版本中。 但是,要解決此特定問題,您無需安裝父qdap軟件包,只需安裝qdapDictionaries 即可

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM