PySpark - 將數據幀寫入 Hive 表

Question

我有一個空的 Hive 表。 我有 18 個正在運行的作業，每個作業都可能有一個數據框，我需要將其添加到 Hive 表中，並使用 parquet 文件。

我所擁有的是這樣的：

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

但這似乎不太正確。 我是否必須添加一些.parquet文件名並每次都添加它？ 我見過一些語法是 Scala 但不是 Python。

Answer 1

df.write.parquet將覆蓋該位置的鑲木地板文件，但可以選擇，

df.write.mode('append').parquet('path')

然后它將為路徑創建一個新的鑲木地板文件，因此您可以從表中讀取數據。