簡體   English   中英

PyArrow / Dask to_parquet分區所有空列

[英]PyArrow / Dask to_parquet partition all null columns

當將Dask數據幀分區寫入Parquet時,我注意到在沖突的元數據/模式上read_parquet失敗。 這是因為在某些分區中的列完全為null / np.nan,而在其他分區中,則使用值填充。

之前,我已經轉換了分區的數據類型:

df = df.astype(dtypes)

PyArrow無法讀取我的分區實木復合地板文件,因為只有空值的列被重新分配了數據類型'null'。 我該如何解決這個問題? 有些分區的列全為空,而另一些分區並不完全為空。

列的數據類型可以是整數,浮點數或字符串(對象)。

我建議在Dask或Arrow問題追蹤器上提出問題

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM