[英]Reading multiple files in python
我有一个超过 30 万个文件的数据集,我需要读取这些文件并将其附加到字典中。
corpus_path = "data"
article_paths = [os.path.join(corpus_path,p) for p in os.listdir(corpus_path)]
doc = []
for path in article_paths:
dp = pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
doc.append(dp)
有没有更快的方法来做到这一点,因为当前的方法需要一个多小时。
您可以使用 多处理模块。
from multiprocessing import Pool
def readFile(path):
return pd.read_table(path, header=None, encoding='utf-8', quoting=3, error_bad_lines=False)
result = list(Pool(processes=nprocs).imap(readFile, article_paths)) #nprocs = Number of processors
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.