簡體   English   中英

在R中將元數據添加到STM

[英]Adding metadata to STM in R

我在R中使用STM軟件包時遇到了麻煩。我在Quanteda中建立了一個語料庫,我想將其轉換為STM格式。 我已經將元數據另存為獨立的CSV文件,並且我想要將文本文檔與元數據合並的代碼。 readCorpus()和“ convert()函數不會自動將元數據信息添加到語料庫。

這在Quanteda中看起來像:

EUdocvars <- read.csv("EU_metadata.csv", stringsAsFactors = FALSE)

EUdocvars$Period <- as.factor(EUdocvars$Period)
EUdocvars$Country <-as.factor(EUdocvars$Country)
EUdocvars$Region <- as.factor(EUdocvars$Region)

EUCorpus <- corpus(textfile(file='PROJECT/*.txt'), encodingFrom = "UTF-8-BOM")
docvars(EUCorpus) <- EUdocvars

EUDfm <- dfm(EUCorpus) 

有沒有辦法使用STM包做同樣的事情?

在尋址https://github.com/kbenoit/quanteda/issues/209之后,最近(v0.99)添加了對此功能的支持。

所以這應該工作:

EUstm <- convert(EUdfm, to = "stm", docvars = docvars(EUCorpus))

然后, EUstm包含了所有適合STM模型所需的元素,包括meta

stm對象(一個列表)具有一個名為$meta的元素,該元素采用尺寸number of documents x number of covariates 因此,對於您的問題:

EUCorpus$meta <- EUdocvars

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM