[英]Read a folder of parquet files from s3 location using pyspark to pyspark dataframe
[英]Is csv to parquet using pyspark distributed?
我在AWS EMR主節點上具有以下代碼片段,可將CSV文件轉換為拼花文件。
%pyspark
csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"
df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')
如果我請求更多節點,此操作會更快嗎? 換句話說,是在火花簇中分配到拼花地板的轉換。 我不能說,也不想在不了解更多信息的情況下在更多節點上花費金錢。
是的,它是分布式的。
手術會更快嗎? 它取決於許多因素,但在最佳情況下,只要代碼等於您的代碼(單階段作業),它就應根據節點數線性地擴展。
禁用模式推斷並提供顯式模式的另一項改進。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.