[英]PySpark - Write data frame into Hive table
我有一個空的 Hive 表。 我有 18 個正在運行的作業,每個作業都可能有一個數據框,我需要將其添加到 Hive 表中,並使用 parquet 文件。
我所擁有的是這樣的:
df2.write.parquet(SOME_HDFS_DIR/my_table_dir)
但這似乎不太正確。 我是否必須添加一些.parquet
文件名並每次都添加它? 我見過一些語法是 Scala 但不是 Python。
df.write.parquet
將覆蓋該位置的鑲木地板文件,但可以選擇,
df.write.mode('append').parquet('path')
然后它將為路徑創建一個新的鑲木地板文件,因此您可以從表中讀取數據。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.