簡體   English   中英

如何使用 pyspark 獲取 pandas dataframe

[英]How to get pandas dataframe using pyspark

我想將“pyspark.sql.dataframe.DataFrame”數據轉換為pandas。最后一行出現“ConnectionRefusedError: [WinError 10061] Connection failed because the destination computer refused the connection”錯誤。 我該如何解決?

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession, Row
import pandas as pd
import numpy as np
import os
import sys

# spark setting
# local
conf = SparkConf().set("spark.driver.host", "127.0.0.1")
sc = SparkContext(conf=conf)

# session
spark = SparkSession.builder.master("local[1]").appName("test_name").getOrCreate()

# file
path = "./data/fhvhv_tripdata_2022-10.parquet"
# header가 있는 경우 option 추가
data = spark.read.option("header", True).parquet(path)

# Error ocurred
pd_df = data.toPandas()

在此處輸入圖像描述

我想將“pyspark.sql.dataframe.DataFrame”數據轉換為 pandas。

首先,確保您運行的是 pyspark 3.2 或更高版本,因為這是本機添加考拉的地方。

然后,連接錯誤可能是很多事情,但與 pandas 無關。您的代碼是正確的。 它不是.network/configuration。 例如,在 Windows 上,您需要配置名為winutils的外部二進制文件。

注意:這里不需要 SparkContext。 您可以通過 SparkSession 構建器傳遞選項。

否則,您不會使用 Hadoop。因此,根本不要使用 Spark How to read a Parquet file into Pandas DataFrame?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM