[英]Google Dataproc in-cluster encryption
我们正致力于符合GDPR标准。 其中一个核心问题是数据加密。 我知道,当数据在Google Cloud Platform中的节点之间移动时,存在传输中的数据加密。 群集中的数据加密如何,例如在洗牌期间,使用Google Dataproc时? 此外,当内部使用tmp
dir时,数据是否被加密(默认情况下有纯文本文件)?
Dataproc基于GCE VM构建,因此适用相同的安全性。
GCE VM(PD或本地SSD)磁盘上的所有数据都已加密: https : //cloud.google.com/compute/docs/disks/ 。 所以Spark的tmp
目录确实是加密的。
离开Google数据中心的网络通信(例如跨区域流量)已加密。 此外,Google API访问权限已加密。 但是,数据中心内的节点到节点通信(可能是所有群集内数据通信流量)未加密。 您可以在此处阅读更多信息: https : //cloud.google.com/security/encryption-in-transit/ 。
话虽这么说,集群内通信基本上是空洞的。 节点到节点的通信通过隔离的VPC网络上的内部IP进行。 Dataproc提供了有关如何配置防火墙规则的指导 。
您还可以使用Dataproc 专用IP群集来避免在VM上具有外部IP地址。
以下是有关Google Cloud GDPR合规性的文档: https : //www.google.com/cloud/security/gdpr/ 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.