如何使用 pyspark 获取 pandas dataframe

Question

我想将“pyspark.sql.dataframe.DataFrame”数据转换为pandas。最后一行出现“ConnectionRefusedError: [WinError 10061] Connection failed because the destination computer refused the connection”错误。 我该如何解决？

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession, Row
import pandas as pd
import numpy as np
import os
import sys

# spark setting
# local
conf = SparkConf().set("spark.driver.host", "127.0.0.1")
sc = SparkContext(conf=conf)

# session
spark = SparkSession.builder.master("local[1]").appName("test_name").getOrCreate()

# file
path = "./data/fhvhv_tripdata_2022-10.parquet"
# header가 있는 경우 option 추가
data = spark.read.option("header", True).parquet(path)

# Error ocurred
pd_df = data.toPandas()

在此处输入图像描述

我想将“pyspark.sql.dataframe.DataFrame”数据转换为 pandas。

Answer 1

首先，确保您运行的是 pyspark 3.2 或更高版本，因为这是本机添加考拉的地方。

然后，连接错误可能是很多事情，但与 pandas 无关。您的代码是正确的。 它不是.network/configuration。 例如，在 Windows 上，您需要配置名为winutils的外部二进制文件。

注意：这里不需要 SparkContext。 您可以通过 SparkSession 构建器传递选项。

否则，您不会使用 Hadoop。因此，根本不要使用 Spark How to read a Parquet file into Pandas DataFrame？

如何使用 pyspark 获取 pandas dataframe

问题描述

1 个解决方案

解决方案1
1 2023-01-08 14:45:42

如何使用 pyspark 获取 pandas dataframe

问题描述

1 个解决方案

解决方案1 1 2023-01-08 14:45:42

解决方案1
1 2023-01-08 14:45:42