繁体 English 中英

我对镶木地板文件和 python 完全陌生，谁能告诉我如何读取 pyspark 中带有标题的镶木地板文件

[英]I am completely new to parquet files and python, Can anyone please let me know how to read parquet file with headers in pyspark

原文 2020-08-12 03:10:18 0 1 python/ pyspark/ parquet

我对镶木地板文件和 python 完全陌生，谁能告诉我如何读取 pyspark 中带有标题的镶木地板文件，以及如何指定其他选项，例如我们在 csv 文件中的其他选项：

df = spark.read.load("examples/src/main/resources/people.csv",
                     format="csv", sep=":", inferSchema="true", header="true")

1 个解决方案

Parquet文件中将包含column names in them我们在读取 parquet 文件时不需要指定header等选项。

要读取镶木地板文件：

#read parquet file
df=spark.read.parquet("<parquet_file_path>")

#or spark defaultly reads data in parquet format
df=spark.read.load("<parquet_file_path>")

#see data from the dataframe
df.show()

如何使用 Spark (pyspark) 编写镶木地板文件？

[英]How can I write a parquet file using Spark (pyspark)?

使用python将parquet文件分成3个parquet文件

[英]divide a parquet file into 3 parquet files using python

如何在 Python 中读取嵌套的 struct Parquet 文件？

[英]How to read nested struct Parquet files in Python?

如何使用 wr.s3.read_parquet 将唯一过滤器应用于镶木地板文件的分区列？

[英]How can I apply a unique filter to partition column of a parquet file using wr.s3.read_parquet?

您如何阅读 Python 中的 gzipped parquet 文件

[英]How can you read a gzipped parquet file in Python

谁能告诉我这条线在我的 python 代码中做了什么：

[英]can anyone please let me know what does this line do in my python CODE:

如何使用PySpark读取目录下的Parquet文件？

[英]How to read Parquet files under a directory using PySpark?

当路径在数据框中列出时如何使用 pyspark 读取镶木地板文件

[英]How to read parquet files using pyspark when paths are listed in a dataframe

如何使用 python 中的 spark dataframe 从 AWS S3 读取镶木地板文件（pyspark）

[英]How to read parquet files from AWS S3 using spark dataframe in python (pyspark)

如何使用 pyspark 在 Hadoop 中读取 parquet 文件、更改数据类型并写入另一个 Parquet 文件

[英]How to Read a parquet file , change datatype and write to another Parquet file in Hadoop using pyspark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用 Spark (pyspark) 编写镶木地板文件？使用python将parquet文件分成3个parquet文件如何在 Python 中读取嵌套的 struct Parquet 文件？如何使用 wr.s3.read_parquet 将唯一过滤器应用于镶木地板文件的分区列？您如何阅读 Python 中的 gzipped parquet 文件谁能告诉我这条线在我的 python 代码中做了什么：如何使用PySpark读取目录下的Parquet文件？当路径在数据框中列出时如何使用 pyspark 读取镶木地板文件如何使用 python 中的 spark dataframe 从 AWS S3 读取镶木地板文件（pyspark）如何使用 pyspark 在 Hadoop 中读取 parquet 文件、更改数据类型并写入另一个 Parquet 文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM