[英]Can I speed up loading xml bz2 files into memory?
我正在嘗試將英文Wikipedia語料庫( https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 )放入python中進行一些深度學習。 我正在使用gensim。
它是16GB,我已經將它安裝在AWS的大型EC2計算機上。 我加載
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")
我在jupyter筆記本中運行此程序,但嘗試加載此程序時基本上已掛起。 我正在觀察內存消耗及其加載非常緩慢。 (超過12小時,僅〜2 GB)。 有什么辦法可以加快速度嗎?
過去,我在不同的服務器上處理了這個完全相同的文件,並且從未造成任何可觀的延遲,唯一的區別是,我從未為此使用過jupyter筆記本。 因此,我敢怪筆記本。 也許使用命令外殼(或IPython)進行嘗試。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.