如何使用 pyspark 獲取 pandas dataframe

Question

我想將“pyspark.sql.dataframe.DataFrame”數據轉換為pandas。最后一行出現“ConnectionRefusedError: [WinError 10061] Connection failed because the destination computer refused the connection”錯誤。 我該如何解決？

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession, Row
import pandas as pd
import numpy as np
import os
import sys

# spark setting
# local
conf = SparkConf().set("spark.driver.host", "127.0.0.1")
sc = SparkContext(conf=conf)

# session
spark = SparkSession.builder.master("local[1]").appName("test_name").getOrCreate()

# file
path = "./data/fhvhv_tripdata_2022-10.parquet"
# header가 있는 경우 option 추가
data = spark.read.option("header", True).parquet(path)

# Error ocurred
pd_df = data.toPandas()

在此處輸入圖像描述

我想將“pyspark.sql.dataframe.DataFrame”數據轉換為 pandas。

Answer 1

首先，確保您運行的是 pyspark 3.2 或更高版本，因為這是本機添加考拉的地方。

然后，連接錯誤可能是很多事情，但與 pandas 無關。您的代碼是正確的。 它不是.network/configuration。 例如，在 Windows 上，您需要配置名為winutils的外部二進制文件。

注意：這里不需要 SparkContext。 您可以通過 SparkSession 構建器傳遞選項。

否則，您不會使用 Hadoop。因此，根本不要使用 Spark How to read a Parquet file into Pandas DataFrame？

如何使用 pyspark 獲取 pandas dataframe

問題描述

1 個解決方案

解決方案1
1 2023-01-08 14:45:42

如何使用 pyspark 獲取 pandas dataframe

問題描述

1 個解決方案

解決方案1 1 2023-01-08 14:45:42

解決方案1
1 2023-01-08 14:45:42