GCP 數據流 Kafka（作為 Azure 事件中心）-> 大查詢

Question

TDLR;

我有一個啟用 Kafka 的 Azure 事件中心，我正在嘗試從 Google Cloud 的數據流服務連接到 stream 數據到 Google Big Query。 我可以成功地使用 Kafka CLI 與 Azure 事件中心對話。 但是，使用 GCP，5 分鍾后，我在 GCP 數據流作業 window 中遇到超時錯誤。

Azure EH 啟用 Kafka -> GCP 數據流 -> GCP 大查詢表

細節

要設置啟用 Kafka 的事件中心，我按照此 GitHub 頁面上的詳細信息進行操作。 它讓開發人員添加一個jaas.conf和client_common.properties 。 jaas.conf包括對登錄模塊的引用以及用戶名/密碼。 帶有 Kafka 的事件中心的用戶名是$ConnectionString 。 密碼是從 CLI 復制的連接字符串。 client_common.properties包含兩個標志： security.protocol=SASL_SSL和sasl.mechanism=PLAIN 。 通過配置這些文件，我可以使用 Kafka CLI 工具和 Azure 事件中心發送和接收數據。 我可以通過 Azure 事件中心看到從生產者到消費者的數據流。

export KAFKA_OPTS="-Djava.security.auth.login.config=jaas.conf"

(echo -n "1|"; cat message.json | jq . -c) | kafka-conle-producer.sh --topic test-event-hub --broker-list test-eh-namespace.servicebus.windows.net:9093 --producer.config client_common.properties --property "parse.key=true" --property "key.separator=|"

kafka-console-consumer.sh --topic test-event-hub --bootstrap-server test-eh-namespace.servicebus.windows.net:9093 --consumer.config client_common.properties --property "print.key=true"
# prints: 1 { "transaction_time": "2020-07-20 15:14:54", "first_name": "Joe", "last_name": "Smith" }

我為 Kafka -> Big Query 修改了Google 的數據流模板。 已經有一個配置 map 指定用於重置偏移量。 我添加了額外的配置以匹配 Azure 事件中心與 Kafka 教程。 雖然不是最佳實踐，但我將連接字符串添加到密碼字段以進行測試。 當我將它上傳到 GCP 數據流引擎並運行該作業時，我每 5 分鍾在日志中收到超時錯誤，並且在 Google Big Query 中沒有任何結果。

作業命令

gcloud dataflow jobs run kafka-test --gcs-location=<removed> --region=us-east1 --worker-zone=us-east4-a --parameters bootstrapServers=test-eh-namespace.servicebus.servicebus.windows.net:9093,inputTopic=test-event-hub,outputTableSpec=project:Kafka_Test.test --service-account-email my-service-account.iam.gserviceaccount.com

GCP 數據流中的錯誤

# these errors show up in the worker logs
Operation ongoing in step ReadFromKafka/KafkaIO.Read/Read(KafkaUnboundedSource)/DataflowRunner.StreamingUnboundedRead.ReadWithIds for at least 05m00s without outputting or completing in state process at java.lang.Thread.sleep(Native Method) at org.apache.kafka.common.utils.SystemTime.sleep(SystemTime.java:45) at org.apache.kafka.clients.consumer.internals.Fetcher.getTopicMetadata(Fetcher.java:366) at org.apache.kafka.clients.consumer.KafkaConsumer.partitionsFor(KafkaConsumer.java:1481) at com.google.cloud.teleport.kafka.connector.KafkaUnboundedSource.updatedSpecWithAssignedPartitions(KafkaUnboundedSource.java:85) at com.google.cloud.teleport.kafka.connector.KafkaUnboundedSource.createReader(KafkaUnboundedSource.java:125) at com.google.cloud.teleport.kafka.connector.KafkaUnboundedSource.createReader(KafkaUnboundedSource.java:45) at org.apache.beam.runners.dataflow.worker.WorkerCustomSources$UnboundedReader.iterator(WorkerCustomSources.java:433) at org.apache.beam.runners.dataflow.worker.util.common.worker.ReadOperation.runReadLoop(ReadOperation.java:186) at org.apache.beam.runners.dataflow.worker.util.common.worker.ReadOperation.start(ReadOperation.java:163) at org.apache.beam.runners.dataflow.worker.util.common.worker.MapTaskExecutor.execute(MapTaskExecutor.java:92) at org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker.process(StreamingDataflowWorker.java:1426) at org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker.access$1100(StreamingDataflowWorker.java:163) at org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker$7.run(StreamingDataflowWorker.java:1105) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748)

Execution of work for computation 'S4' on key '0000000000000001' failed with uncaught exception. Work will be retried locally.

# this error shows up in the Job log
Error message from worker: org.apache.kafka.common.errors.TimeoutException: Timeout expired while fetching topic metadata

更新配置

Map<String, Object> props = new HashMap<>();
// azure event hub authentication
props.put("sasl.mechanism", "PLAIN");
props.put("security.protocol", "SASL_SSL")
props.put("sasl.jaas.config", "org.apache.kafka.common.security.plain.PlainLoginModule required username=\"$ConnectionString\" password=\"<removed>\";");
props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");

// https://github.com/Azure/azure-event-hubs-for-kafka/blob/master/CONFIGURATION.md
props.put("request.timeout.ms", 60000);
props.put("session.timeout.ms", 15000);
props.put("max.poll.interval.ms", 30000);
props.put("offset.metadata.max.bytes", 1024);
props.put("connections.max.idle.ms", 180000);
props.put("metadata.max.age.ms", 180000);

管道

    PCollectionTuple convertedTableRows =
                pipeline
                        /*
                         * Step #1: Read messages in from Kafka
                         */
                        .apply(
                                "ReadFromKafka",
                                KafkaIO.<String, String>read()
                                        .withConsumerConfigUpdates(ImmutableMap.of(props))
                                        .withBootstrapServers(options.getBootstrapServers())
                                        .withTopics(topicsList)
                                        .withKeyDeserializerAndCoder(
                                                StringDeserializer.class, NullableCoder.of(StringUtf8Coder.of()))
                                        .withValueDeserializerAndCoder(
                                                StringDeserializer.class, NullableCoder.of(StringUtf8Coder.of()))
                                        .withoutMetadata())

                        /*
                         * Step #2: Transform the Kafka Messages into TableRows
                         */
                        .apply("ConvertMessageToTableRow", new MessageToTableRow(options));

概述

配置環境變量
修改、構建和上傳到 GCP 的容器注冊表
創建數據流圖像規范
使用數據流執行圖像

這個應用程序有一個從GCP 數據流模板移植過來的復雜構建過程。 構建過程帶來了作為依賴項引入的 GCP Dataflow docker 映像構建和部署腳本。 只需克隆 repo 即可開始使用。

先決條件

安裝Google Cloud CLI 工具
（可選，但如果未完成，則需要從構建/部署命令中刪除托管服務 ID）托管服務 ID
- 設置 GCP 托管服務 ID
- 創建static 密鑰
- 將GCR Authentication Helper設置為托管服務 ID，以從本地計算機向 GCR 進行身份驗證
克隆回購

配置環境變量

第一步是設置環境變量以配置給定應用程序的構建和部署腳本。

export PROJECT=test-project
export IMAGE_NAME=test-project
export BUCKET_NAME=gs://test-project
export TARGET_GCR_IMAGE=gcr.io/${PROJECT}/${IMAGE_NAME}
export BASE_CONTAINER_IMAGE=gcr.io/dataflow-templates-base/java8-template-launcher-base
export BASE_CONTAINER_IMAGE_VERSION=latest
export TEMPLATE_MODULE=kafka-to-bigquery
export APP_ROOT=/template/${TEMPLATE_MODULE}
export COMMAND_SPEC=${APP_ROOT}/resources/${TEMPLATE_MODULE}-command-spec.json
export TEMPLATE_IMAGE_SPEC=${BUCKET_NAME}/images/${TEMPLATE_MODULE}-image-spec.json

export BOOTSTRAP=<event_grid_name>.servicebus.windows.net:9093
export TOPICS=<event_grid_topic_name>
export OUTPUT_TABLE=test-project:<schema>.test
export AUTHENTICATION_STRING="org.apache.kafka.common.security.plain.PlainLoginModule required username=\"\$ConnectionString\" password=\"<EVENT_GRID_TOPIC_APP_SECRET>\";"

修改、構建和上傳項目

在構建之前，您需要更新 ./kafka-to-bigquery/src/main/java/com/google/cloud/teleport/v2/templates/KafkaToBigQuery.java 文件以處理身份驗證字符串：

public class KafkaToBigQuery {

    public interface Options extends PipelineOptions {

        @Description("Kafka Authentication String")
        @Required
        String getAuthenticationString();

        void setAuthenticationString(String authenticationString);
    }

    public static PipelineResult run(Options options) {

        Map<String, Object> props = new HashMap<>();
        props.put("sasl.mechanism", "PLAIN");
        props.put("security.protocol", "SASL_SSL");
        props.put("sasl.jaas.config", options.getAuthenticationString());

//      https://github.com/Azure/azure-event-hubs-for-kafka/blob/master/CONFIGURATION.md
        props.put("request.timeout.ms", 60000);
        props.put("session.timeout.ms", 15000);
        props.put("max.poll.interval.ms", 30000);
        props.put("offset.metadata.max.bytes", 1024);

        props.put("connections.max.idle.ms", 180000);
        props.put("metadata.max.age.ms", 180000);


        PCollectionTuple convertedTableRows =
                pipeline
                        /*
                         * Step #1: Read messages in from Kafka
                         */
                        .apply(
                                "ReadFromKafka",
                                KafkaIO.<String, String>read()
                                        .withConsumerConfigUpdates(props)
                                        .withBootstrapServers(options.getBootstrapServers())
                                        .withTopics(topicsList)
                                        .withKeyDeserializerAndCoder(
                                                StringDeserializer.class, NullableCoder.of(StringUtf8Coder.of()))
                                        .withValueDeserializerAndCoder(
                                                StringDeserializer.class, NullableCoder.of(StringUtf8Coder.of()))
                                        .withoutMetadata())

    }
}

設置項目並更改文件后，下一階段是構建 docker 映像以上傳到 Google 的 Container Registry。 此命令還將構建與其他 Google 服務交互的common文件。 如果構建成功，容器將被推送到 Google Container Registry (GCR)。 您可以從 GCR 部署到 Google Dataflow。

mvn clean package -Dimage=${TARGET_GCR_IMAGE} \
    -Dbase-container-image=${BASE_CONTAINER_IMAGE} \
    -Dbase-container-image.version=${BASE_CONTAINER_IMAGE_VERSION} \
    -Dapp-root=${APP_ROOT} \
    -Dcommand-spec=${COMMAND_SPEC} \
    -am -pl ${TEMPLATE_MODULE}

創建和上傳圖像規范（只完成一次）

在 Dataflow 中啟動項目之前，Dataflow 運行器需要一個 Flex 模板來了解如何執行項目。 Flex 模板是一個 JSON 元數據文件，其中包含用於構建 GCP 數據流應用程序的參數和指令。 必須將 Flex 模板上傳到 Google Cloud Storage (GCS) 到由環境變量設置的相應存儲桶名稱。 此步驟必須與此環境變量TEMPLATE_IMAGE_SPEC=${BUCKET_NAME}/images/${TEMPLATE_MODULE}-image-spec.json 。

{
  "image": "gcr.io/<my-project-url>:latest",
  "metadata": {
    "name": "Streaming data generator",
    "description": "Generates Synthetic data as per user specified schema at a fixed QPS and writes to Sink of user choice.",
    "parameters": [
      {
        "name": "authenticationString",
        "label": "Kafka Event Hub Authentication String",
        "helpText": "The authentication string for the Azure Event Hub",
        "is_optional": false,
        "regexes": [
          ".+"
        ],
        "paramType": "TEXT"
      },
      {
        "name": "bootstrapServers",
        "label": "Kafka Broker IP",
        "helpText": "The Kafka broker IP",
        "is_optional": false,
        "regexes": [
          ".+"
        ],
        "paramType": "TEXT"
      },
      {
        "name": "inputTopics",
        "label": "PubSub Topic name",
        "helpText": "The name of the topic to which the pipeline should publish data. For example, projects/<project-id>/topics/<topic-name> - should match the Event Grid Topic",
        "is_optional": false,
        "regexes": [
          ".+"
        ],
        "paramType": "PUBSUB_TOPIC"
      },
      {
        "name": "outputTableSpec",
        "label": "Output BigQuery table",
        "helpText": "Output BigQuery table. For example, <project>:<dataset>.<table_name>. Mandatory when sinkType is BIGQUERY.",
        "isOptional": false,
        "regexes": [
          ".+:.+\\..+"
        ],
        "paramType": "TEXT"
      },
      {
        "name": "outputDeadletterTable",
        "label": "Output Deadletter table",
        "helpText": "Output Deadletter table. For example, <project>:<dataset>.<table_name>",
        "isOptional": true,
        "regexes": [
          ".+:.+\\..+"
        ],
        "paramType": "TEXT"
      }
    ]
  },
  "sdk_info": {
    "language": "JAVA"
  }
}

使用數據流執行圖像

將圖像上傳到 GCP 並上傳 Flex 模板后，您可以啟動 Dataflow 應用程序。 這些參數必須與 Flex 模板的元數據部分中包含的參數相匹配。

export JOB_NAME="${TEMPLATE_MODULE}-`date +%Y%m%d-%H%M%S-%N`"
gcloud beta dataflow flex-template run ${JOB_NAME} \
        --project=${PROJECT} --region=us-east1 \
        --template-file-gcs-location=${TEMPLATE_IMAGE_SPEC} \
        --parameters ^~^outputTableSpec=${OUTPUT_TABLE}~inputTopics=${TOPICS}~bootstrapServers=${BOOTSTRAP}~authenticationString="${AUTHENTICATION_STRING}" \
        --verbosity=info \
        --service-account-email=<service_account_to_execute_service>

運行此命令后，請在 GCP Cloud Console 中查看狀態。 此時數據流作業應該可以成功地從 Azure 事件網格中提取消息並將它們插入到 Google Big Query 中。

GCP 存儲庫假定 Google Big Query/Dataflow 將動態地使表具有正確的行，但是 YMMV 因為我發現這個很奇怪。 解決方法是在運行 Dataflow 作業之前在 Google Big Query 中創建架構。

GCP 數據流 Kafka（作為 Azure 事件中心）-> 大查詢

問題描述

TDLR;

細節

作業命令

GCP 數據流中的錯誤

更新配置

管道

相關問題

1 個解決方案

解決方案1
1 已采納 2021-09-30 21:02:25

概述

先決條件

配置環境變量

修改、構建和上傳項目

創建和上傳圖像規范（只完成一次）

使用數據流執行圖像

GCP 數據流 Kafka（作為 Azure 事件中心）-&gt; 大查詢

問題描述

TDLR;

細節

作業命令

GCP 數據流中的錯誤

更新配置

管道

相關問題

1 個解決方案

解決方案1 1 已采納 2021-09-30 21:02:25

概述

先決條件

配置環境變量

修改、構建和上傳項目

創建和上傳圖像規范（只完成一次）

使用數據流執行圖像

GCP 數據流 Kafka（作為 Azure 事件中心）-> 大查詢

解決方案1
1 已采納 2021-09-30 21:02:25