簡體 English 中英

使用pyspark分發到鑲木地板的csv是否已分發？

[英]Is csv to parquet using pyspark distributed?

原文 2017-10-21 02:59:47 6 1 amazon-web-services/ apache-spark/ pyspark/ emr/ parquet

我在AWS EMR主節點上具有以下代碼片段，可將CSV文件轉換為拼花文件。

%pyspark


csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')

如果我請求更多節點，此操作會更快嗎？ 換句話說，是在火花簇中分配到拼花地板的轉換。 我不能說，也不想在不了解更多信息的情況下在更多節點上花費金錢。

1 個解決方案

是的，它是分布式的。

手術會更快嗎？ 它取決於許多因素，但在最佳情況下，只要代碼等於您的代碼（單階段作業），它就應根據節點數線性地擴展。

禁用模式推斷並提供顯式模式的另一項改進。

使用 pyspark 到 pyspark dataframe 從 s3 位置讀取鑲木地板文件的文件夾

[英]Read a folder of parquet files from s3 location using pyspark to pyspark dataframe

使用 PySpark 讀取時過濾鑲木地板文件

[英]Filtering parquet file on read with PySpark

如何使用 python 中的 spark dataframe 從 AWS S3 讀取鑲木地板文件（pyspark）

[英]How to read parquet files from AWS S3 using spark dataframe in python (pyspark)

通過使用 pyspark 將 dataframe 的較小的多個拼花文件識別到單個分區 dataframe 中，進行 S3 壓縮

[英]S3 compaction by identifying the smaller-multiple parquet files of a dataframe into single partition dataframe by using pyspark

使用 Pyspark 在 s3 中寫入鑲木地板文件時出錯

[英]Error writing parquet file in s3 with Pyspark

使用AWS Glue將很大的csv.gz（每個30-40 GB）轉換為鑲木地板

[英]Using AWS Glue to convert very big csv.gz (30-40 gb each) to parquet

在 AWS lamda 中，如何使用 pandas to_csv 將我的 Parquet 文件轉換為 CSV，並且我希望應該使用 PYTHON 將該 csv 文件插入到 postgresql

[英]In AWS lamda how to convert my Parquet file to CSV using pandas to_csv and i want that csv file should be inserted to postgresql using PYTHON

AWS Glue：無法將 CSV gzip 解析為 Parquet

[英]AWS Glue: Unable to parse CSV gzip to Parquet

將 CSV 事件轉換為 Parquet 的 Glue-Job

[英]Glue-Job to convert CSV events into Parquet

AWS Glue 作業 - 將 CSV 轉換為 Parquet

[英]AWS Glue Job - Convert CSV to Parquet

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 pyspark 到 pyspark dataframe 從 s3 位置讀取鑲木地板文件的文件夾使用 PySpark 讀取時過濾鑲木地板文件如何使用 python 中的 spark dataframe 從 AWS S3 讀取鑲木地板文件（pyspark）通過使用 pyspark 將 dataframe 的較小的多個拼花文件識別到單個分區 dataframe 中，進行 S3 壓縮使用 Pyspark 在 s3 中寫入鑲木地板文件時出錯使用AWS Glue將很大的csv.gz（每個30-40 GB）轉換為鑲木地板在 AWS lamda 中，如何使用 pandas to_csv 將我的 Parquet 文件轉換為 CSV，並且我希望應該使用 PYTHON 將該 csv 文件插入到 postgresql AWS Glue：無法將 CSV gzip 解析為 Parquet 將 CSV 事件轉換為 Parquet 的 Glue-Job AWS Glue 作業 - 將 CSV 轉換為 Parquet

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM