繁体   English   中英

如何将大型数据集加载到 gensim word2vec model

[英]How to load large dataset to gensim word2vec model

所以我有多个文本文件(大约 40 个)。 每个文件大约有 2000 篇文章(平均每篇 500 字)。 每个文档都是文本文件中的一行。

因此,由于 memory 的限制,我想使用这些文本文件的动态加载来进行训练。 (也许是一个迭代器 class?)

那么我该如何进行呢?

  • 训练每个文本文件 -> 保存 model -> 加载 model 并重新运行新数据?
  • 迭代器 class 有没有办法自动执行此操作?
  • 我应该逐句、逐条或逐个文本文件地给出 model 培训的输入吗?

所以我有多个文本文件(大约 40 个)。 每个文件大约有 2000 篇文章(平均每篇 500 字)。 每个文档都是文本文件中的一行。

因此,由于 memory 的限制,我想使用这些文本文件的动态加载来进行训练。 (也许是一个迭代器 class?)

那么我该如何进行呢?

  • 训练每个文本文件 -> 保存 model -> 加载 model 并重新运行新数据?
  • 迭代器 class 有没有办法自动执行此操作?
  • 我应该逐句、逐条或逐个文本文件地给出 model 培训的输入吗?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM