繁体   English   中英

pyspark 数据框中是否有类似于 pandas.io.json.json_normalize 的函数

[英]Is there a function in pyspark dataframe that is similar to pandas.io.json.json_normalize

我想执行类似于 pandas.io.json.json_normalize 是 pyspark 数据帧的操作。 spark中有等效的功能吗?

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.io.json.json_normalize.html

Spark 有一个类似的功能explode()但它并不完全相同。

这是explode如何在非常高的水平上工作。

>>> from pyspark.sql.functions import explode, col

>>> data = {'A': [1, 2]}

>>> df = spark.createDataFrame(data)

>>> df.show()
 +------+
 |     A|
 +------+
 |[1, 2]|
 +------+

>>> df.select(explode(col('A')).alias('normalized')).show()
+----------+
|normalized|
+----------+
|         1|
|         2|
+----------+

另一方面,您可以使用以下方法将 Spark DataFrame 转换为 Pandas DataFrame:

  • spark_df.toPandas() --> 利用 json_normalize() 然后恢复到 Spark DataFrame。

  • 要恢复到 Spark DataFrame,您可以使用spark.createDataFrame(pandas_df)

请注意,这种来回解决方案在调用 toPandas() 时并不理想,会导致将 DataFrame 的所有记录 (.collect()) 收集到驱动程序中,并且在处理较大的数据集时可能会导致内存错误。

下面的链接提供了有关使用 toPandas() 的更多见解: DF.topandas() throwing error in pyspark

希望这会有所帮助,祝你好运!

json_normalize中没有json_normalize直接对应物。 但 Spark 提供了不同的选择。 如果您在这样的 Dataframe 中嵌套了对象

one
|_a
|_..
two
|_b
|_..

您可以在 Spark 中选择子列,如下所示:

import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("stackoverflow demo").getOrCreate()
columns = ['id', 'one', 'two']
vals = [
     (1, {"a": False}, {"b": True}),
     (2, {"a": True}, {"b": False})
]
df = spark.createDataFrame(vals, columns)
df.select("one.a", "two.b").show()
+-----+-----+
|    a|    b|
+-----+-----+
|false| true|
| true|false|
+-----+-----+

如果您使用此答案中的递归“展平”函数构建所有嵌套列的展平列表,那么我们将获得平展列结构:

columns = flatten(df.schema)
df.select(columns)

Pandas json_normalize() 非常棒,它在我的 Jupyter Notebook 中完美运行。 但是我在让它与 Kafka Structured Streaming 一起运行时遇到了问题。 此解决方案是否也应与 Spark Streaming 一起使用,或者这是不可能的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM