[英]Transferring BigQuery data to amazon s3 bucket
我有一个存储在 Big Query 中的模式,我需要将其传输到 amazon s3 存储桶。过程是什么? BigQuery 数据来自其他愿意提供适当访问权限以传输数据的组织。 我找到了从 s3 存储桶导入到 gcp 的方法,但无法直接从大查询导出到 s3。我真的被困在这部分了。 此外,我需要安排此过程,因为 bigquery 中的数据在变化,而且我每天都希望将数据发送到我的 s3 存储桶。 请提及参考资料。 请注意,每天的数据将以 TB 为单位
AFAIK 没有直接的 bigquery 到 s3 管道,但解决方法是 BigQuery 到 Google 云存储然后到 s3
第一步是在计划作业的机器上设置 gcloud sdk 。
配置 gcloud 并特别注意boto 配置,如果该进程将在 EC2 上运行并附加允许其写入 S3 的角色,则可以跳过此步骤(这也是比使用密钥更好的安全实践)
将数据从 bigquery 复制到 gcs
bq --location=US extract --destination_format AVRO --compression SNAPPY [source_table] [target location on gcs]
将文件从 gcs 复制到 s3
gsutil rsync -r [target location on gcs] to [target location on s3]
注意:此过程适用于 GA360 数据,因为它已经按天分区,但如果不是这种情况并且您无法分离表,那么您可以在 GCP上安排查询以使用将使用的增量逻辑创建表作为 [源表]
我想这可以直接使用导出查询:Ref: Transferring BigQuery data to amazon s3 bucket
使用连接CONNECTION_REGION.CONNECTION_NAME
导出数据
OPTIONS(uri="s3://BUCKET_NAME/PATH", format="FORMAT", ...)
作为查询
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.