读取 pandas 中的镶木地板文件

Question

我正在尝试将镶木地板文件读取到 pandas

data=pd.read_parquet('MyFiles.parquet', engine='pyarrow')

但我收到以下错误

ArrowInvalid: Casting from timestamp[us] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000

如果我将引擎类型更改为 fastparquet

 data=pd.read_parquet('MyFiles.parquet', engine='fastparquet')

还有这个错误

AttributeError: 'numpy.ndarray' object has no attribute 'tz'

Answer 1

在不同时区具有时间戳的列有问题。 您可能需要先下载 parquet 文件，并在转换为 pandas DataFrame 之前对其进行修改。一些相关问题： Parquet File datetime value mismatch