[英]Reading multiple files in python
我有一個超過 30 萬個文件的數據集,我需要讀取這些文件並將其附加到字典中。
corpus_path = "data"
article_paths = [os.path.join(corpus_path,p) for p in os.listdir(corpus_path)]
doc = []
for path in article_paths:
dp = pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
doc.append(dp)
有沒有更快的方法來做到這一點,因為當前的方法需要一個多小時。
您可以使用 多處理模塊。
from multiprocessing import Pool
def readFile(path):
return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
result = list(Pool(processes=nprocs).imap(readFile, article_paths)) #nprocs = Number of processors
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.