簡體   English   中英

PySpark - 將數據幀寫入 Hive 表

[英]PySpark - Write data frame into Hive table

我有一個空的 Hive 表。 我有 18 個正在運行的作業,每個作業都可能有一個數據框,我需要將其添加到 Hive 表中,並使用 parquet 文件。

我所擁有的是這樣的:

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

但這似乎不太正確。 我是否必須添加一些.parquet文件名並每次都添加它? 我見過一些語法是 Scala 但不是 Python。

df.write.parquet將覆蓋該位置的鑲木地板文件,但可以選擇,

df.write.mode('append').parquet('path')

然后它將為路徑創建一個新的鑲木地板文件,因此您可以從表中讀取數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM