如何從文件對象中讀取帶有 pyarrow 的 csv.gz 文件？

Question

我正在嘗試使用 pyarrow 從 S3 讀取一堆 gzip 壓縮的 csv 文件。 pyarrow.csv.read_csv的文檔頁面說

如果是字符串或路徑，並且以可識別的壓縮文件擴展名結尾（例如“.gz”或“.bz2”

不幸的是，我無法提供字符串值作為輸入路徑，因此 CSV 閱讀器假定沒有壓縮。

import s3fs
import pyarrow.csv as pv

s3 = s3fs.core.S3FileSystem(anon=False)

csv_path = 's3://bucket_name/path/to/file.csv.gz'

with s3.open(csv_path) as s3fp:
    table = pv.read_csv(s3fp)

我試圖更深入地研究 pyarrow 內部結構，但我無法確定一種方法來傳遞壓縮類型的附加參數。

Answer 1

找到了解決方法。 在從文件處理程序讀取 csv 之前，可以在兩者之間添加 gzip 解壓縮：

import gzip
import s3fs
import pyarrow.csv as pv

s3 = s3fs.core.S3FileSystem(anon=False)

csv_path = 's3://bucket_name/path/to/file.csv.gz'

with s3.open(csv_path) as s3fp:
    with gzip.open(s3fp) as fp:
        table = pv.read_csv(fp)

如何從文件對象中讀取帶有 pyarrow 的 csv.gz 文件？

問題描述

1 個解決方案

解決方案1
1 已采納 2020-10-29 14:07:14

如何從文件對象中讀取帶有 pyarrow 的 csv.gz 文件？

問題描述

1 個解決方案

解決方案1 1 已采納 2020-10-29 14:07:14

解決方案1
1 已采納 2020-10-29 14:07:14