簡體 English 中英

如何將大型數據集加載到 gensim word2vec model

[英]How to load large dataset to gensim word2vec model

原文 2020-08-17 22:55:40 9 1 python/ iterator/ gensim/ word2vec

所以我有多個文本文件（大約 40 個）。 每個文件大約有 2000 篇文章（平均每篇 500 字）。 每個文檔都是文本文件中的一行。

因此，由於 memory 的限制，我想使用這些文本文件的動態加載來進行訓練。 （也許是一個迭代器 class？）

那么我該如何進行呢？

訓練每個文本文件 -> 保存 model -> 加載 model 並重新運行新數據？
迭代器 class 有沒有辦法自動執行此操作？
我應該逐句、逐條或逐個文本文件地給出 model 培訓的輸入嗎？

1 個解決方案

所以我有多個文本文件（大約 40 個）。 每個文件大約有 2000 篇文章（平均每篇 500 字）。 每個文檔都是文本文件中的一行。

因此，由於 memory 的限制，我想使用這些文本文件的動態加載來進行訓練。 （也許是一個迭代器 class？）

那么我該如何進行呢？

訓練每個文本文件 -> 保存 model -> 加載 model 並重新運行新數據？
迭代器 class 有沒有辦法自動執行此操作？
我應該逐句、逐條或逐個文本文件地給出 model 培訓的輸入嗎？

無法加載已保存的gensim word2vec模型

[英]Can't load saved gensim word2vec model

如何從gensim中的Word2Vec模型中完全刪除單詞？

[英]How to remove a word completely from a Word2Vec model in gensim?

Gensim word2vec 和大量文本

[英]Gensim word2vec and large amount of texts

如何更快地將 Word2Vec 預訓練的 model 加載到 Gensim 中？

[英]How can a Word2Vec pretrained model be loaded in Gensim faster?

如何在 gensim 中的 word2vec model 中嵌入用戶名

[英]How to embed user names in word2vec model in gensim

如何使用gensim在Wikipedia頁面上訓練Word2Vec模型？

[英]How to train Word2Vec model on Wikipedia page using gensim?

Gensim 無法加載 word2vec 模型

[英]Gensim unable to load word2vec models

gensim中的增量Word2Vec模型訓練

[英]Incremental Word2Vec Model Training in gensim

Gensim Word2Vec model 浮點數

[英]Gensim Word2Vec model floating point

Gensim Word2Vec 模型：切割尺寸

[英]Gensim Word2Vec model: Cut dimensions

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 無法加載已保存的gensim word2vec模型如何從gensim中的Word2Vec模型中完全刪除單詞？ Gensim word2vec 和大量文本如何更快地將 Word2Vec 預訓練的 model 加載到 Gensim 中？如何在 gensim 中的 word2vec model 中嵌入用戶名如何使用gensim在Wikipedia頁面上訓練Word2Vec模型？ Gensim 無法加載 word2vec 模型 gensim中的增量Word2Vec模型訓練 Gensim Word2Vec model 浮點數 Gensim Word2Vec 模型：切割尺寸

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM