使用R中的tex2vec進行手套詞嵌入模型參數，並每n次迭代后顯示訓練輸出（歷元）

Question

我正在R中使用text2vec軟件包來訓練單詞嵌入（手套模型），如下所示：

library(text2vec)
library(tm)

prep_fun = tolower
tok_fun = word_tokenizer
tokens = docs %>%  # docs: a collection of text documents  
prep_fun %>% 
tok_fun

it = itoken(tokens, progressbar = FALSE)

stopword <- tm::stopwords("SMART")
vocab = create_vocabulary(it,stopwords=stopword) 

vectorizer <- vocab_vectorizer(vocab)

tcm <- create_tcm(it, vectorizer, skip_grams_window = 6)

x_max <- min(50,max(10,ceiling(length(vocab$doc_count)/100)))
glove_model <- GlobalVectors$new(word_vectors_size = 200, vocabulary = vocab, x_max = x_max,learning_rate = 0.1) 

word_vectors <- glove_model$fit_transform(tcm, n_iter = 1000, convergence_tol = 0.001)

運行此代碼時，將得到以下輸出：

我的問題是：

每n次迭代后是否有輸出，即針對時期50、100、150等的輸出。
對word_vectors_size，x_max和learning_rate的最佳值有何建議？ 例如，對於10,000個文檔，這些參數的最佳價值是多少？

感謝您的回復。

非常感謝，山姆

Answer 1

GlobalVectors類的一個成員稱為n_dump_every 。 您可以將其設置為一些數字，並且單詞嵌入的歷史記錄將被保存。 然后可以使用get_history()函數進行檢索

glove_model <- GlobalVectors$new(word_vectors_size = 200, vocabulary = vocab, x_max = 100,learning_rate = 0.1) 
glove_model$n_dump_every = 10
word_vectors <- glove_model$fit_transform(tcm, n_iter = 1000, convergence_tol = 0.001)
trace = glove_model$get_history()

關於第二個問題-

您可以嘗試略微改變學習率（通常會降低），但默認設置應該可以（跟蹤成本函數的值）。
您擁有的數據越多，可以為word_vectors_size提供的值word_vectors_size 。 對於Wikipedia，大小通常為300就足夠了。 對於較小的數據集，您可以從20-50開始。 您確實需要嘗試一下。

使用R中的tex2vec進行手套詞嵌入模型參數，並每n次迭代后顯示訓練輸出（歷元）

問題描述

1 個解決方案

解決方案1
0 已采納 2018-08-14 11:29:50

使用R中的tex2vec進行手套詞嵌入模型參數，並每n次迭代后顯示訓練輸出（歷元）

問題描述

1 個解決方案

解決方案1 0 已采納 2018-08-14 11:29:50

解決方案1
0 已采納 2018-08-14 11:29:50