在Python Pandas中使用read_parquet从AWS S3读取Parquet文件时出现分段错误

Question

我有一个在AWS EC2上（在AWS Linux上）运行的python脚本，这些脚本将镶木地板文件从S3拉到Pandas数据框中。 我现在正在迁移到新的AWS账户并设置新的EC2。 这次在python虚拟环境上执行相同的脚本时，出现“段错误”，执行结束。

import pandas as pd
import numpy as np
import pyarrow.parquet as pq
import s3fs
import boto3
from fastparquet import write
from fastparquet import ParquetFile

print("loading...")
df = pd.read_parquet('<my_s3_path.parquet>', engine='fastparquet')

导入了所有软件包，并设置了所有S3和AWS配置。

当执行完整的脚本时，我得到：

loading...
Segmentation fault

如您所见，没有太多需要合作的东西。 我已经搜寻了几个小时，并且看到了许多猜测和出现此症状的原因。 我会感谢您的帮助。

Answer 1

我可以通过更改使用的引擎参数来解决此问题。 根据pandas的官方文档，这些是引擎选项：

引擎：{'auto'，'pyarrow'，'fastparquet'}，默认为'auto'

因此只需更改为“自动”即可解决问题。

df = pd.read_parquet('<my_s3_path.parquet>')

在Python Pandas中使用read_parquet从AWS S3读取Parquet文件时出现分段错误

问题描述

1 个解决方案

解决方案1
0 2019-09-05 07:04:24

在Python Pandas中使用read_parquet从AWS S3读取Parquet文件时出现分段错误

问题描述

1 个解决方案

解决方案1 0 2019-09-05 07:04:24

解决方案1
0 2019-09-05 07:04:24