Confluent BigTable Sink 連接器上的 RowKey 定義錯誤

Question

我正在嘗試使用 Confluent 中的 BigTable Sink 連接器從 kafka 讀取數據並將其寫入我的 BigTable 實例，但我收到以下消息錯誤：

org.apache.kafka.connect.errors.ConnectException: Exiting WorkerSinkTask due to unrecoverable exception.
    at org.apache.kafka.connect.runtime.WorkerSinkTask.deliverMessages(WorkerSinkTask.java:614)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.poll(WorkerSinkTask.java:329)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.iteration(WorkerSinkTask.java:232)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.execute(WorkerSinkTask.java:201)
    at org.apache.kafka.connect.runtime.WorkerTask.doRun(WorkerTask.java:185)
    at org.apache.kafka.connect.runtime.WorkerTask.run(WorkerTask.java:234)
    at java.base/java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:515)
    at java.base/java.util.concurrent.FutureTask.run(FutureTask.java:264)
    at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1128)
    at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:628)
    at java.base/java.lang.Thread.run(Thread.java:834)
Caused by: org.apache.kafka.connect.errors.ConnectException: Error with RowKey definition: Row key definition was defined, but received, deserialized kafka key is not a struct. Unable to construct a row key.
    at io.confluent.connect.bigtable.client.RowKeyExtractor.getRowKey(RowKeyExtractor.java:69)
    at io.confluent.connect.bigtable.client.BufferedWriter.addWriteToBatch(BufferedWriter.java:84)
    at io.confluent.connect.bigtable.client.InsertWriter.write(InsertWriter.java:47)
    at io.confluent.connect.bigtable.BaseBigtableSinkTask.put(BaseBigtableSinkTask.java:99)
    at org.apache.kafka.connect.runtime.WorkerSinkTask.deliverMessages(WorkerSinkTask.java:586)
    ... 10 more

由於某些技術限制，消息生產者將無法生成具有 key 屬性的消息，因此，我正在使用一些 Transforms 從有效負載中獲取信息並將其設置為關鍵消息。

這是我的連接器有效負載：

{
  "name" : "DATALAKE.BIGTABLE.SINK.QUEUEING.ZTXXD",
  "config" : {
    "connector.class" : "io.confluent.connect.gcp.bigtable.BigtableSinkConnector",
    "key.converter" : "org.apache.kafka.connect.storage.StringConverter",
    "value.converter" : "org.apache.kafka.connect.json.JsonConverter",
    "topics" : "APP-DATALAKE-QUEUEING-ZTXXD_DATALAKE-V1",
    "transforms" : "HoistField,AddKeys,ExtractKey",
    "gcp.bigtable.project.id" : "bigtable-project-id",
    "gcp.bigtable.instance.id" : "bigtable-instance-id",
    "gcp.bigtable.credentials.json" : "XXXXX",
    "transforms.ExtractKey.type" : "org.apache.kafka.connect.transforms.ExtractField$Key",
    "transforms.HoistField.field" : "raw_data_cf",
    "transforms.ExtractKey.field" : "KEY1,ATT1",
    "transforms.HoistField.type" : "org.apache.kafka.connect.transforms.HoistField$Value",
    "transforms.AddKeys.type" : "org.apache.kafka.connect.transforms.ValueToKey",
    "transforms.AddKeys.fields" : "KEY1,ATT1",
    "row.key.definition" : "KEY1,ATT1",
    "table.name.format" : "raw_ZTXXD_DATALAKE",
    "consumer.override.group.id" : "svc-datalake-KAFKA_2_BIGTABLE",
    "confluent.topic.bootstrap.servers" : "xxxxxx:9092",
    "input.data.format" : "JSON",
    "confluent.topic" : "_dsp-confluent-license",
    "input.key.format" : "STRING",
    "key.converter.schemas.enable" : "false",
    "confluent.topic.security.protocol" : "SASL_SSL",
    "row.key.delimiter" : "/",
    "confluent.topic.sasl.jaas.config" : "org.apache.kafka.common.security.plain.PlainLoginModule required username=\"XXXXX\" password=\"XXXXXX\";",
    "value.converter.schemas.enable" : "false",
    "auto.create.tables" : "true",
    "auto.create.column.families" : "true",
    "confluent.topic.sasl.mechanism" : "PLAIN"
  }
}

這是我給卡夫卡的信息：

{
    "MANDT": "110",
    "KEY1": "1",
    "KEY2": null,
    "ATT1": "1M",
    "ATT2": "0000000000",
    "TABLE_NAME": "ZTXXD_DATALAKE",
    "IUUC_OPERATION": "I",
    "CREATETIMESTAMP": "2022-01-24T20:26:45.247Z"
}

在我的轉換中，我正在執行三個操作：

HoistField 將我的有效負載放在一個兩級結構中（BigTable 的連接文檔說 connect 需要一個兩級結構以便能夠推斷家庭列
addKey 正在將我認為關鍵的列添加到消息鍵中
ExtractKey 正在從 header 中添加的字段中刪除鍵，只留下值本身。

我一直在閱讀 Bigtable 的此連接器的文檔，但我不清楚該連接器是否適用於 JSON 格式。 你能告訴我嗎？

Answer 1

JSON 應該可以工作，但是......

反序列化的 kafka 密鑰不是結構

這是因為您在值轉換器上設置了schemas.enable=false屬性，這樣當您執行 ValueToKey 時，它就不是 Connect Struct 類型； HoistField 使用 Java Map 代替。

如果您無法使用架構注冊表並切換序列化格式，那么您需要嘗試找到一種方法來獲取 REST 代理，以在 JSON 消息生成數據之前推斷其架構（我不t認為它可以）。 否則，您的記錄需要包含schema和payload字段，並且您需要在轉換器上啟用架構。 在這里解釋

另一種選擇 - 可能有一個轉換項目可以設置記錄的模式，但它不是內置的..（它不是SetSchemaMetadata的一部分）

Confluent BigTable Sink 連接器上的 RowKey 定義錯誤

問題描述

1 個解決方案

解決方案1
1 已采納 2022-01-28 14:16:44

Confluent BigTable Sink 連接器上的 RowKey 定義錯誤

問題描述

1 個解決方案

解決方案1 1 已采納 2022-01-28 14:16:44

解決方案1
1 已采納 2022-01-28 14:16:44