簡體   English   中英

你能使用Spark SQL / Hive / Presto直接從Parquet / S3復制到Redshift嗎?

[英]Can you copy straight from Parquet/S3 to Redshift using Spark SQL/Hive/Presto?

我們在S3存儲了大量的服務器數據(很快就會以Parquet格式存儲)。 數據需要一些轉換,因此它不能是S3的直接副本。 我將使用Spark來訪問數據,但我想知道是不是用Spark操縱它,寫回S3,然后復制到Redshift如果我可以跳過一步並運行查詢來拉/變換數據然后直接復制到Redshift?

當然,完全有可能。

Scala代碼讀取鑲木地板(取自此處

val people: RDD[Person] = ... 
people.write.parquet("people.parquet")
val parquetFile = sqlContext.read.parquet("people.parquet") //data frame

用於寫入redshift的Scala代碼(取自此處

parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM