你能使用Spark SQL / Hive / Presto直接從Parquet / S3復制到Redshift嗎？

Question

我們在S3存儲了大量的服務器數據（很快就會以Parquet格式存儲）。 數據需要一些轉換，因此它不能是S3的直接副本。 我將使用Spark來訪問數據，但我想知道是不是用Spark操縱它，寫回S3，然后復制到Redshift如果我可以跳過一步並運行查詢來拉/變換數據然后直接復制到Redshift？

Answer 1

當然，完全有可能。

Scala代碼讀取鑲木地板（取自此處）

val people: RDD[Person] = ... 
people.write.parquet("people.parquet")
val parquetFile = sqlContext.read.parquet("people.parquet") //data frame

用於寫入redshift的Scala代碼（取自此處）

parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()

你能使用Spark SQL / Hive / Presto直接從Parquet / S3復制到Redshift嗎？

問題描述

1 個解決方案

解決方案1
11 已采納 2016-04-14 22:52:39

你能使用Spark SQL / Hive / Presto直接從Parquet / S3復制到Redshift嗎？

問題描述

1 個解決方案

解決方案1 11 已采納 2016-04-14 22:52:39

解決方案1
11 已采納 2016-04-14 22:52:39