我正在尝试将 pyspark 数据帧写入 kms 加密的 s3 存储桶。我正在尝试使用 spark-3.0.1-bin-hadoop3.2。 我已经给出了所有可能的配置,如下所示。 获取异常 任何想法来解决这个问题? 谢谢 ...
提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供 中文繁体 英文版本 中英对照 版本,有任何建议请联系yoyou2525@163.com。
我通过 spark dataframe 创建了 CSV 文件,这些文件会自动加密 KMS。
供您参考,我提供了一个创建这些 KMS 加密文件的示例代码片段。 如果您在写作时看到我没有提供任何 KMS 密钥。 如果您说出根本原因,这将非常有帮助。
val df=spark.read.format("csv").option("header", "true").load("s3:///test/App_IP.csv")
df.createOrReplaceTempView("test")
val df1=spark.sql("select name from test")
df1.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").save("s3://test/city5/")
我从 EMR 集群 (emr-5.24.0) 中的 spark-shell 执行的这段代码,spark 版本是 Spark 2.4.2
您可以按照 EMR 文档Amazon S3 Server-Side Encryption中的说明使用 S3 加密:
fs.s3.enableServerSideEncryption
:设置为 true 时,存储在 Amazon S3 中的对象使用服务器端加密进行加密。 如果未指定密钥,则使用 SSE-S3。fs.s3.serverSideEncryption.kms.keyId
:指定 AWS KMS 密钥 ID 或 ARN。 如果指定了密钥,则使用 SSE-KMS。
创建启用了 SSE-S3 的集群:
aws emr create-cluster --release-label emr-5.24.0 \
--instance-count 3 --instance-type m5.xlarge --emrfs Encryption=ServerSide
创建启用了 SSE-KMS 的集群:
aws emr create-cluster --release-label emr-5.24.0 \ --instance-count 3 \
--instance-type m5.xlarge --use-default-roles \
--emrfs Encryption=ServerSide,Args=[fs.s3.serverSideEncryption.kms.keyId=<keyId>]
或者通过提供集群配置 JSON:
[
...
{
"Classification":"emrfs-site",
"Properties": {
"fs.s3.enableServerSideEncryption": "true",
"fs.s3.serverSideEncryption.kms.keyId":"<keyId>"
}
}
]
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.