[英]How to load large dataset to gensim word2vec model
所以我有多个文本文件(大约 40 个)。 每个文件大约有 2000 篇文章(平均每篇 500 字)。 每个文档都是文本文件中的一行。
因此,由于 memory 的限制,我想使用这些文本文件的动态加载来进行训练。 (也许是一个迭代器 class?)
那么我该如何进行呢?
所以我有多个文本文件(大约 40 个)。 每个文件大约有 2000 篇文章(平均每篇 500 字)。 每个文档都是文本文件中的一行。
因此,由于 memory 的限制,我想使用这些文本文件的动态加载来进行训练。 (也许是一个迭代器 class?)
那么我该如何进行呢?
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.