Pandas read_parquet 部分解析二進制列

Question

我正在嘗試讀取包含具有多個十六進制值的二進制列的鑲木地板文件，這在使用 Pandas 讀取它時會導致問題。 Pandas 會自動將一些十六進制值轉換為字符，但有一些保持不變，因此數據不再可用。 使用PySpark讀取它時，它將所有十六進制值轉換為十進制基數，但由於 output 是一致的，因此它是可用的。

任何想法為什么 pandas 以不同方式解析此列以及我如何獲得相同的 output，或者至少是一致的（未應用部分解析）作為 Spark 返回？

代碼片段和返回的輸出：

Pandas：

df = pd.read_parquet('data.parquet'))

pd.read_parquet output：

pd.read_parquet 輸出

火花：

spark_df = spark.read.parquet("data.parquet")
df = spark_df.toPandas()

Spark.read.parquet output：

spark.read.parquet 輸出

Answer 1

Pandas 正在返回一個字節字符串，一些字符會這樣顯示，但沒有任何問題。 例如：

x = bytes([1,10,100]) # x is shown as b'\x01\nd' where last 'd' is ASCII letter
list(x) # get as a list of numbers

要將您的 pandas dataframe 轉換為看起來像火花一，請使用：

df['BASE_PERIOD_VECTOR'].apply(list)

Pandas read_parquet 部分解析二進制列

問題描述

1 個解決方案

解決方案1
0 已采納 2022-08-17 18:26:40

Pandas read_parquet 部分解析二進制列

問題描述

1 個解決方案

解決方案1 0 已采納 2022-08-17 18:26:40

解決方案1
0 已采納 2022-08-17 18:26:40