如何將 PySpark dataframe 寫入 DynamoDB 表？

Question

如何將 PySpark dataframe 寫入 DynamoDB 表？ 沒有找到太多關於此的信息。 根據我的要求，我必須將 PySpark dataframe 寫入 Dynamo 數據庫表。 總的來說，我需要從我的 PySpark 代碼讀取/寫入發電機。

提前致謝。

Answer 1

Ram，沒有辦法直接從 pyspark 做到這一點。 如果您正在運行管道軟件，則可以通過一系列步驟來完成。 這是如何做到的：

創建一個臨時配置單元表，如
CREATE TABLE TEMP( column1 type, column2 type...) STORED AS ORC;
運行您的 pySpark 作業並將您的數據寫入其中
dataframe.createOrReplaceTempView("df") spark.sql("INSERT OVERWRITE TABLE temp SELECT * FROM df")
創建 dynamo 連接器表
CREATE TABLE TEMPTODYNAMO( column1 type, column2 type...) STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' TBLPROPERTIES ("dynamodb.table.name" = "temp-to-dynamo", "dynamodb.column.mapping" = "column1:column1,column2:column2...";
用您的臨時表覆蓋該表
INSERT OVERWRITE TABLE TEMPTODYNAMO SELECT * FROM TEMP;

更多信息： https : //docs.aws.amazon.com/emr/latest/ReleaseGuide/EMR_Hive_Commands.html

Answer 2

您可以使用spark-dynamodb 。

從他們的回購：

# Load a DataFrame from a Dynamo table. Only incurs the cost of a single scan for schema inference.
dynamoDf = spark.read.option("tableName", "SomeTableName") \
                     .format("dynamodb") \
                     .load() # <-- DataFrame of Row objects with inferred schema.

# Scan the table for the first 100 items (the order is arbitrary) and print them.
dynamoDf.show(100)

# write to some other table overwriting existing item with same keys
dynamoDf.write.option("tableName", "SomeOtherTable") \
              .format("dynamodb") \
              .save()

Answer 3

此 AWS 博客解釋了如何使用 AWS Glue 創建唯一鍵、分區和將 S3 數據 (csv) 寫入 DynamoDB 表。

realtor.com® 如何最大限度地將數據從 Amazon S3 上傳到 Amazon DynamoDB

Answer 4

我們將 pyspark output 保存到 S3 上的 parquet，然后使用 lambda 中的 awswrangler 層將 parquet 數據讀取到 pandas 幀和 wrangler.dynamodb.put_df 將整個 dataframe 表寫入 dy。 使用 lambda 並發和 s3 事件觸發器進行相當不錯的擴展

如何將 PySpark dataframe 寫入 DynamoDB 表？

問題描述

4 個解決方案

解決方案1
3 已采納 2018-10-29 20:42:58

解決方案2
1 2021-04-10 11:08:59

解決方案3
0 2021-05-20 19:56:29

解決方案4
0 2022-11-24 02:04:50

如何將 PySpark dataframe 寫入 DynamoDB 表？

問題描述

4 個解決方案

解決方案1 3 已采納 2018-10-29 20:42:58

解決方案2 1 2021-04-10 11:08:59

解決方案3 0 2021-05-20 19:56:29

解決方案4 0 2022-11-24 02:04:50

解決方案1
3 已采納 2018-10-29 20:42:58

解決方案2
1 2021-04-10 11:08:59

解決方案3
0 2021-05-20 19:56:29

解決方案4
0 2022-11-24 02:04:50