簡體   English   中英

如何將大型數據集加載到 gensim word2vec model

[英]How to load large dataset to gensim word2vec model

所以我有多個文本文件(大約 40 個)。 每個文件大約有 2000 篇文章(平均每篇 500 字)。 每個文檔都是文本文件中的一行。

因此,由於 memory 的限制,我想使用這些文本文件的動態加載來進行訓練。 (也許是一個迭代器 class?)

那么我該如何進行呢?

  • 訓練每個文本文件 -> 保存 model -> 加載 model 並重新運行新數據?
  • 迭代器 class 有沒有辦法自動執行此操作?
  • 我應該逐句、逐條或逐個文本文件地給出 model 培訓的輸入嗎?

所以我有多個文本文件(大約 40 個)。 每個文件大約有 2000 篇文章(平均每篇 500 字)。 每個文檔都是文本文件中的一行。

因此,由於 memory 的限制,我想使用這些文本文件的動態加載來進行訓練。 (也許是一個迭代器 class?)

那么我該如何進行呢?

  • 訓練每個文本文件 -> 保存 model -> 加載 model 並重新運行新數據?
  • 迭代器 class 有沒有辦法自動執行此操作?
  • 我應該逐句、逐條或逐個文本文件地給出 model 培訓的輸入嗎?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM