簡體   English   中英

如何將 documentdb 連接到 emr 實例中的 spark 應用程序

[英]How to connect documentdb to a spark application in an emr instance

我在我的 EMR 實例中嘗試使用 mongodb 配置 spark 時遇到錯誤。 下面是命令 -

spark-shell --conf "spark.mongodb.output.uri=mongodb://admin123:Vibhuti21!@docdb-2021-09-18-15-29-54.cluster-c4paykiwnh4d.us-east-1.docdb.amazonaws.com:27017/?replicaSet=rs0&readPreference=secondaryPreferred&retryWrites=false" "spark.mongodb.output.collection="ecommerceCluster" --packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.3

我是 Spark 和 AWS 的初學者。 有人可以幫忙嗎?

DocumentDB 需要在將啟動 spark 執行程序的每個節點上安裝 CA 包。 因此,您首先需要在每個實例上安裝 CA 證書,AWS 在 JAVA 部分下有兩個 bash 腳本中的指南,這使事情變得更容易。 1個

安裝這些證書后,您的 spark 命令需要使用您可以傳遞給 Spark 的配置參數來引用信任庫及其密碼。 這是我運行的示例,效果很好。

spark-submit 
--packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.3  
--conf "spark.executor.extraJavaOptions=  
-Djavax.net.ssl.trustStore=/tmp/certs/rds-truststore.jks  
-Djavax.net.ssl.trustStorePassword=<yourpassword>"   pytest.py

您也可以在兩個 spark-shell 中提供相同的配置選項。

我發現有一件事很棘手,那就是 mongo spark 連接器似乎不知道連接字符串中的 ssl_ca_certs 參數,所以我刪除了它以避免來自 Spark 的警告,因為 Spark 執行程序無論如何都會在配置中引用密鑰庫。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM