簡體   English   中英

我可以加快將xml bz2文件加載到內存中的速度嗎?

[英]Can I speed up loading xml bz2 files into memory?

我正在嘗試將英文Wikipedia語料庫( https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 )放入python中進行一些深度學習。 我正在使用gensim。

它是16GB,我已經將它安裝在AWS的大型EC2計算機上。 我加載

from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing

wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")

我在jupyter筆記本中運行此程序,但嘗試加載此程序時基本上已掛起。 我正在觀察內存消耗及其加載非常緩慢。 (超過12小時,僅〜2 GB)。 有什么辦法可以加快速度嗎?

過去,我在不同的服務器上處理了這個完全相同的文件,並且從未造成任何可觀的延遲,唯一的區別是,我從未為此使用過jupyter筆記本。 因此,我敢怪筆記本。 也許使用命令外殼(或IPython)進行嘗試。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM