[英]Can you copy straight from Parquet/S3 to Redshift using Spark SQL/Hive/Presto?
我們在S3
存儲了大量的服務器數據(很快就會以Parquet
格式存儲)。 數據需要一些轉換,因此它不能是S3的直接副本。 我將使用Spark
來訪問數據,但我想知道是不是用Spark操縱它,寫回S3,然后復制到Redshift如果我可以跳過一步並運行查詢來拉/變換數據然后直接復制到Redshift?
當然,完全有可能。
Scala代碼讀取鑲木地板(取自此處 )
val people: RDD[Person] = ...
people.write.parquet("people.parquet")
val parquetFile = sqlContext.read.parquet("people.parquet") //data frame
用於寫入redshift的Scala代碼(取自此處 )
parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.