PySpark/HIVE：附加到现有表

Question

非常基本的问题 pyspark/hive 问题：

如何附加到现有表？ 我的尝试如下

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
conf_init = SparkConf().setAppName('pyspark2')
sc = SparkContext(conf = conf_init)
hive_cxt = HiveContext(sc)

import pandas as pd
df = pd.DataFrame({'a':[0,0], 'b':[0,0]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('overwrite').saveAsTable('database.table') #this line works

df = pd.DataFrame({'a':[1,1,1], 'b':[2,2,2]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('append').saveAsTable('database.table') #this line does not work
#sdf.write.insertInto('database.table',overwrite = False) #this line does not work

谢谢！ 山姆

Answer 1

似乎使用 option('overwrite') 导致了问题； 它删除该表，然后重新创建一个新表。 如果我执行以下操作，一切正常：

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext

conf_init = SparkConf().setAppName('pyspark2')
sc = SparkContext(conf = conf_init)
print(sc.version)
hive_cxt = HiveContext(sc)
hive_cxt.sql('USE database')

query = """
        CREATE TABLE IF NOT EXISTS table (a int, b int)
        STORED AS parquet
        """
hive_cxt.sql(query)

import pandas as pd
df = pd.DataFrame({'a':[0,0], 'b':[0,0]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('append').format('hive').saveAsTable('table')

query = """
        SELECT *
        FROM   table
        """
df = hive_cxt.sql(query)
df = df.toPandas()
print(df) # successfully pull the data in table

df = pd.DataFrame({'a':[1,1,1], 'b':[2,2,2]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('append').format('hive').saveAsTable('table')

Answer 2

我认为以前您忘记使用导致问题的格式选项，当您尝试追加而不是像上面提到的那样覆盖时。

PySpark/HIVE：附加到现有表

问题描述

2 个解决方案

解决方案1
7 已采纳 2017-11-30 16:02:11

解决方案2
0 2020-05-18 22:41:51

PySpark/HIVE：附加到现有表

问题描述

2 个解决方案

解决方案1 7 已采纳 2017-11-30 16:02:11

解决方案2 0 2020-05-18 22:41:51

解决方案1
7 已采纳 2017-11-30 16:02:11

解决方案2
0 2020-05-18 22:41:51