如何將Spark DataFrame插入Hive內部表？

Question

在附加模式下將DF插入Hive內部表的正確方法是什么。 看來我們可以使用“saveAsTable”方法直接將DF寫入Hive，或者將DF存儲到臨時表，然后使用查詢。

df.write().mode("append").saveAsTable("tableName")

要么

df.registerTempTable("temptable") 
sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

第二種方法會附加記錄還是覆蓋它？

有沒有其他方法可以有效地將DF寫入Hive Internal表？

Answer 1

這里沒有任何選項適用於我/可能已經貶值，因為答案是寫的。

根據最新的spark API文檔（適用於Spark 2.1），它使用DataFrameWriter類中的insertInto()方法

我正在使用Python PySpark API，但它在Scala中是相同的：

df.write.insertInto(target_db.target_table,overwrite = False)

以上對我有用。

Answer 2

不推薦使用df.saveAsTable("tableName", "append") 。 相反，你應該采取第二種方法。

sqlContext.sql("CREATE TABLE IF NOT EXISTS mytable as select * from temptable")

如果表不存在，它將創建表。 當您第二次運行代碼時，您需要刪除現有表，否則您的代碼將退出異常。

另一種方法，如果你不想丟桌子。 單獨創建一個表，然后將數據插入該表。

以下代碼將數據附加到現有表中

sqlContext.sql("insert into table mytable select * from temptable")

以下代碼將數據覆蓋到現有表中

sqlContext.sql("insert overwrite table mytable select * from temptable")

這個答案基於Spark 1.6.2。 如果您使用的是其他版本的Spark，我建議您查看相應的文檔。

Answer 3

您也可以插入並覆蓋正在插入的分區，您可以使用動態分區來完成。

spark.conf.set("hive.exec.dynamic.partition.mode", "nonstrict")

temp_table = "tmp_{}".format(table)
df.createOrReplaceTempView(temp_table)
spark.sql("""
    insert overwrite table `{schema}`.`{table}`
    partition (partCol1, partCol2)
      select col1       
           , col2       
           , col3       
           , col4   
           , partCol1
           , partCol2
    from {temp_table}
""".format(schema=schema, table=table, temp_table=temp_table))

如何將Spark DataFrame插入Hive內部表？

問題描述

3 個解決方案

解決方案1
11 2017-07-11 22:07:33

解決方案2
5 已采納 2017-02-14 09:59:04

解決方案3
0 2019-07-02 16:33:51

如何將Spark DataFrame插入Hive內部表？

問題描述

3 個解決方案

解決方案1 11 2017-07-11 22:07:33

解決方案2 5 已采納 2017-02-14 09:59:04

解決方案3 0 2019-07-02 16:33:51

解決方案1
11 2017-07-11 22:07:33

解決方案2
5 已采納 2017-02-14 09:59:04

解決方案3
0 2019-07-02 16:33:51