简体   繁体   English

我对镶木地板文件和 python 完全陌生,谁能告诉我如何读取 pyspark 中带有标题的镶木地板文件

[英]I am completely new to parquet files and python, Can anyone please let me know how to read parquet file with headers in pyspark

I am completely new to parquet files and python, Can anyone please let me know how to read parquet file with headers in pyspark and how to specify other options like we have it in csv files as below:我对镶木地板文件和 python 完全陌生,谁能告诉我如何读取 pyspark 中带有标题的镶木地板文件,以及如何指定其他选项,例如我们在 csv 文件中的其他选项:

df = spark.read.load("examples/src/main/resources/people.csv",
                     format="csv", sep=":", inferSchema="true", header="true")

Parquet files will have column names in them and We don't need to specify options like header ..etc while reading parquet files. Parquet文件中将包含column names in them我们在读取 parquet 文件时不需要指定header等选项。

To read parquet files:要读取镶木地板文件:

#read parquet file
df=spark.read.parquet("<parquet_file_path>")

#or spark defaultly reads data in parquet format
df=spark.read.load("<parquet_file_path>")

#see data from the dataframe
df.show()

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用 Spark (pyspark) 编写镶木地板文件? - How can I write a parquet file using Spark (pyspark)? 使用python将parquet文件分成3个parquet文件 - divide a parquet file into 3 parquet files using python 如何在 Python 中读取嵌套的 struct Parquet 文件? - How to read nested struct Parquet files in Python? 如何使用 wr.s3.read_parquet 将唯一过滤器应用于镶木地板文件的分区列? - How can I apply a unique filter to partition column of a parquet file using wr.s3.read_parquet? 您如何阅读 Python 中的 gzipped parquet 文件 - How can you read a gzipped parquet file in Python 谁能告诉我这条线在我的 python 代码中做了什么: - can anyone please let me know what does this line do in my python CODE: 如何使用PySpark读取目录下的Parquet文件? - How to read Parquet files under a directory using PySpark? 当路径在数据框中列出时如何使用 pyspark 读取镶木地板文件 - How to read parquet files using pyspark when paths are listed in a dataframe 如何使用 python 中的 spark dataframe 从 AWS S3 读取镶木地板文件(pyspark) - How to read parquet files from AWS S3 using spark dataframe in python (pyspark) 如何使用 pyspark 在 Hadoop 中读取 parquet 文件、更改数据类型并写入另一个 Parquet 文件 - How to Read a parquet file , change datatype and write to another Parquet file in Hadoop using pyspark
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM