将数据增量地写入镶木地板文件

Question

要将大熊猫数据帧写入镶木地板，我需要执行以下操作：

df = pd.DataFrame(DATA)
table = pa.Table.from_pandas(df)
pq.write_table(table, 'DATA.parquet')

但是，如果我说1B行，那么这将无法很好地工作，并且无法容纳在内存中。 在这种情况下，我将如何递增地写入数据。 例如，类似：

DATA = []
BACTCH_SIZE = 10000
with open('largefile.csv') as f:
    for num, line in enumerate(f):
        if (len(DATA) == BATCH_SIZE):
            pq.write_table(pa.Table.from_pandas(pd.DataFrame(DATA)), 'DATA.parquet')
            DATA = []
        DATA.append(line.split(','))

if DATA: pq.write_table(pa.Table.from_pandas(pd.DataFrame(DATA)), 'DATA.parquet')

但是，我相信以上内容将继续覆盖镶木地板文件。 我该怎么做相当于追加？

Answer 1

Hadoop并非用于附加。 只需将每批新文件写入一个目录，几乎所有Hadoop API都应该能够读取所有实木复合地板文件

BACTCH_SIZE = 10000
c = 0
with open('largefile.csv') as f:
    for num, line in enumerate(f):
        if len(DATA) == BATCH_SIZE:
            pq.write_table(pa.Table.from_pandas(pd.DataFrame(DATA)), 'DATA.{}.parquet'.format(c))
            DATA = []
            c += 1
        DATA.append(line.split(','))

这也是Spark写入数据的方式。 每个执行者一个文件

但是，如果您的csv很大，只需将其放入HDFS中，然后在其上创建一个Hive表，然后从那里将其转换为实木复合地板即可。 完全不需要熊猫

将数据增量地写入镶木地板文件

问题描述

1 个解决方案

解决方案1
2 已采纳 2019-02-09 03:53:18

将数据增量地写入镶木地板文件

问题描述

1 个解决方案

解决方案1 2 已采纳 2019-02-09 03:53:18

解决方案1
2 已采纳 2019-02-09 03:53:18