簡體   English   中英

需要排程 MongoDB kafka connect

[英]Need to schedule MongoDB kafka connect

We are working with mongodb kafka connetor on top of open source Apache Kafka connector, for data ingestion of json data from Mongo to HDFS. 我們有 kafka 消費者,它讀取 kafka 中的數據更改並將它們寫入 hdfs 文件。

我們希望在不同時間的特定時間安排源連接器。

我們需要根據預定日期觸發 kafka 消息。

我們可以使用來自 confluent 的源連接器的配置屬性來處理這種情況,並自定義輪詢間隔

關聯:

https://www.mongodb.com/docs/kafka-connector/current/source-connector/configuration-properties/all-properties/#std-label-source-configuration-all-properties

==> poll.await.time.ms 可以是一個解決方案

否則,有 Kafka 消息調度器:

https://github.com/etf1/kafka-message-scheduler

使用調度程序自動使用來自 Kafka 的數據

創建新調度程序時,vkconfig 腳本會執行以下步驟:

使用您為調度程序指定的名稱創建新的 Vertica 架構。 您可以在配置期間使用此名稱來標識調度程序。

在新創建的模式中創建管理 Kafka 數據負載所需的表。

來自MongoDB Kafka連接官方文檔:

https://www.mongodb.com/docs/kafka-connector/current/source-connector/configuration-properties/all-properties/#change-streams

使用以下配置設置來指定更改流的聚合管道和更改 stream 游標的讀取首選項。

poll.await.time.ms == 檢查更改 stream cursor 以獲取新結果之前等待的時間量(以毫秒為單位)。

或使用: poll.max.batch.size == 輪詢更改 stream cursor 以獲取新數據時單個批次中讀取的最大文檔數。 您可以使用此設置來限制連接器內部緩沖的數據量。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM