簡體   English   中英

使用pyspark分發到鑲木地板的csv是否已分發?

[英]Is csv to parquet using pyspark distributed?

我在AWS EMR主節點上具有以下代碼片段,可將CSV文件轉換為拼花文件。

%pyspark


csv_path = "s3://<bucket>/file.csv"
p_path = "s3://<bucket>/file.parquet"

df = sqlContext.read.csv(csv_path, header=True, inferSchema=True)
df.write.parquet(p_path, mode='overwrite')

如果我請求更多節點,此操作會更快嗎? 換句話說,是在火花簇中分配到拼花地板的轉換。 我不能說,也不想在不了解更多信息的情況下在更多節點上花費金錢。

是的,它是分布式的。

手術會更快嗎? 它取決於許多因素,但在最佳情況下,只要代碼等於您的代碼(單階段作業),它就應根據節點數線性地擴展。

禁用模式推斷並提供顯式模式的另一項改進。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM