繁体   English   中英

将 BigQuery 数据传输到 amazon s3 存储桶

[英]Transferring BigQuery data to amazon s3 bucket

我有一个存储在 Big Query 中的模式,我需要将其传输到 amazon s3 存储桶。过程是什么? BigQuery 数据来自其他愿意提供适当访问权限以传输数据的组织。 我找到了从 s3 存储桶导入到 gcp 的方法,但无法直接从大查询导出到 s3。我真的被困在这部分了。 此外,我需要安排此过程,因为 bigquery 中的数据在变化,而且我每天都希望将数据发送到我的 s3 存储桶。 请提及参考资料。 请注意,每天的数据将以 TB 为单位

AFAIK 没有直接的 bigquery 到 s3 管道,但解决方法是 BigQuery 到 Google 云存储然后到 s3

  1. 第一步是在计划作业的机器上设置 gcloud sdk

  2. 配置 gcloud 并特别注意boto 配置,如果该进程将在 EC2 上运行并附加允许其写入 S3 的角色,则可以跳过此步骤(这也是比使用密钥更好的安全实践)

  3. 将数据从 bigquery 复制到 gcs

     bq --location=US extract --destination_format AVRO --compression SNAPPY [source_table] [target location on gcs]
  4. 将文件从 gcs 复制到 s3

     gsutil rsync -r [target location on gcs] to [target location on s3]

注意:此过程适用于 GA360 数据,因为它已经按天分区,但如果不是这种情况并且您无法分离表,那么您可以在 GCP安排查询以使用将使用的增量逻辑创建表作为 [源表]

我想这可以直接使用导出查询:Ref: Transferring BigQuery data to amazon s3 bucket

使用连接CONNECTION_REGION.CONNECTION_NAME导出数据
OPTIONS(uri="s3://BUCKET_NAME/PATH", format="FORMAT", ...)
作为查询

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM