如何使用 BigQuery 連接器從 java spark 讀取 BigQuery 表

Question

我正在嘗試通過 spark java 代碼讀取 bigquery 表，如下所示：

    BigQuerySQLContext bqSqlCtx = new BigQuerySQLContext(sqlContext);
    bqSqlCtx.setGcpJsonKeyFile("sxxxl-gcp-1x4c0xxxxxxx.json");
    bqSqlCtx.setBigQueryProjectId("winged-standard-2xxxx");
    bqSqlCtx.setBigQueryDatasetLocation("asia-east1");
    bqSqlCtx.setBigQueryGcsBucket("dataproc-9cxxxxx39-exxdc-4e73-xx07- 2258xxxx4-asia-east1");
    Dataset<Row> testds = bqSqlCtx.bigQuerySelect("select * from bqtestdata.customer_visits limit 100");

但我面臨以下問題：

19/01/14 10:52:01 WARN org.apache.spark.sql.SparkSession$Builder: Using an existing SparkSession; some configuration may not take effect.
19/01/14 10:52:01 INFO com.samelamin.spark.bigquery.BigQueryClient: Executing query select * from bqtestdata.customer_visits limit 100
19/01/14 10:52:02 INFO com.samelamin.spark.bigquery.BigQueryClient: Creating staging dataset winged-standard-2xxxxx:spark_bigquery_staging_asia-east1

Exception in thread "main" java.util.concurrent.ExecutionException: com.google.api.client.googleapis.json.GoogleJsonResponseException: 

400 Bad Request
{
  "code" : 400,
  "errors" : 
[ {
    "domain" : "global",
    **"message" : "Invalid dataset ID \"spark_bigquery_staging_asia-east1\". Dataset IDs must be alphanumeric (plus underscores) and must be at most 1024 characters long.",**
    "reason" : "invalid"
  } ],
  "message" : "Invalid dataset ID \"spark_bigquery_staging_asia-east1\". Dataset IDs must be alphanumeric (plus underscores) and must be at most 1024 characters long.",
  "status" : "INVALID_ARGUMENT"
}

Answer 1

響應中的消息

Dataset IDs must be alphanumeric (plus underscores)...

表示dataset ID "spark_bigquery_staging_asia-east1" 無效，因為其中包含連字符，特別是在asia-east1 。

Answer 2

我在samelamin 的Scala 庫中遇到了類似的問題。 顯然，這是由於圖書館無法處理美國和歐盟以外的位置，因此圖書館將無法訪問來自asia-east1數據集。

目前，我使用 BigQuery Spark 連接器從 BigQuery 加載和寫入我的數據。

如果您能夠找到使用此庫的解決方法，也請分享。

如何使用 BigQuery 連接器從 java spark 讀取 BigQuery 表

問題描述

2 個解決方案

解決方案1
1 2019-01-19 01:32:54

解決方案2
0 2019-06-26 09:38:54

如何使用 BigQuery 連接器從 java spark 讀取 BigQuery 表

問題描述

2 個解決方案

解決方案1 1 2019-01-19 01:32:54

解決方案2 0 2019-06-26 09:38:54

解決方案1
1 2019-01-19 01:32:54

解決方案2
0 2019-06-26 09:38:54