Apache Beam数据流BigQuery

Question

如何使用apache beam和DataflowRunner从Google BigQuery数据集中获取表列表？

我找不到如何从指定的数据集获取表。 我想使用Dataflow的并行处理编程模型将表从位于美国的数据集中迁移到位于欧盟的一个数据集中。

Answer 1

声明图书馆

from google.cloud import bigquery

准备一个bigquery客户

client = bigquery.Client(project='your_project_name')

准备对新数据集的引用

dataset_ref = client.dataset('your_data_set_name')

发出API请求

tables = list(client.list_tables(dataset_ref))
if tables:
    for table in tables:
        print('\t{}'.format(table.table_id))

参考： https : //googlecloudplatform.github.io/google-cloud-python/latest/bigquery/usage.html#datasets

Answer 2

您可以尝试使用google-cloud-examples Maven存储库。 有一个名为BigQuerySnippets的类，该类进行API调用来获取表元，您可以获取模式。 请注意，限制API配额是每秒6个最大并发请求。

Answer 3

Dataflow的目的是创建管道，因此不包括发出某些API请求的功能。 您必须使用BigQuery Java客户端库来获取数据，然后将其提供给Apache Pipeline。

DatasetId datasetId = DatasetId.of(projectId, datasetName);
Page<Table> tables = bigquery.listTables(datasetId, TableListOption.pageSize(100));
for (Table table : tables.iterateAll()) {
  // do something
}

Apache Beam数据流BigQuery

问题描述

3 个解决方案

解决方案1
0 2018-07-18 00:40:26

声明图书馆

准备一个bigquery客户

准备对新数据集的引用

发出API请求

解决方案2
0 2018-09-07 19:01:31

解决方案3
0 2018-11-15 21:33:01

Apache Beam数据流BigQuery

问题描述

3 个解决方案

解决方案1 0 2018-07-18 00:40:26

声明图书馆

准备一个bigquery客户

准备对新数据集的引用

发出API请求

解决方案2 0 2018-09-07 19:01:31

解决方案3 0 2018-11-15 21:33:01

解决方案1
0 2018-07-18 00:40:26

解决方案2
0 2018-09-07 19:01:31

解决方案3
0 2018-11-15 21:33:01