Create Spark Dataframe from Pandas Dataframe with Nested Python Dictionaries and Numpy Arrays

Question

我有一個 pandas dataframe 包含 numpy ZA3CBC3F9D0CE2F2C15954E1B671D71 和字典

results_df.head(1)

best_params                                    cv_results                                
{'max_depth': 3, 'min_impurity_decrease': 0.2} {'mean_fit_time': [0.6320801575978597, 1.08473]}

我希望能夠創建一個包含類似嵌套結構的 Spark Dataframe（如果需要，它們可以是 Spark 對象），我嘗試了：

spark.createDataFrame(results_df)
TypeError: not supported type: <class 'numpy.ndarray'>

Answer 1

一種解決方案是使用名為 koalas 的數據塊支持模塊。 性能也相當不錯。 有關考拉的更多信息： https://koalas.readthedocs.io/en/latest/

import koalas as ks
spark_df = ks.from_pandas(pandas_df)

考拉就這么簡單！

Create Spark Dataframe from Pandas Dataframe with Nested Python Dictionaries and Numpy Arrays

問題描述

1 個解決方案

解決方案1
0 2020-08-16 11:46:05

Create Spark Dataframe from Pandas Dataframe with Nested Python Dictionaries and Numpy Arrays

問題描述

1 個解決方案

解決方案1 0 2020-08-16 11:46:05

解決方案1
0 2020-08-16 11:46:05