繁体   English   中英

如何使用 pyspark 获取 pandas dataframe

[英]How to get pandas dataframe using pyspark

我想将“pyspark.sql.dataframe.DataFrame”数据转换为pandas。最后一行出现“ConnectionRefusedError: [WinError 10061] Connection failed because the destination computer refused the connection”错误。 我该如何解决?

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession, Row
import pandas as pd
import numpy as np
import os
import sys

# spark setting
# local
conf = SparkConf().set("spark.driver.host", "127.0.0.1")
sc = SparkContext(conf=conf)

# session
spark = SparkSession.builder.master("local[1]").appName("test_name").getOrCreate()

# file
path = "./data/fhvhv_tripdata_2022-10.parquet"
# header가 있는 경우 option 추가
data = spark.read.option("header", True).parquet(path)

# Error ocurred
pd_df = data.toPandas()

在此处输入图像描述

我想将“pyspark.sql.dataframe.DataFrame”数据转换为 pandas。

首先,确保您运行的是 pyspark 3.2 或更高版本,因为这是本机添加考拉的地方。

然后,连接错误可能是很多事情,但与 pandas 无关。您的代码是正确的。 它不是.network/configuration。 例如,在 Windows 上,您需要配置名为winutils的外部二进制文件。

注意:这里不需要 SparkContext。 您可以通过 SparkSession 构建器传递选项。

否则,您不会使用 Hadoop。因此,根本不要使用 Spark How to read a Parquet file into Pandas DataFrame?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM