[英]Kafka Connect: can multiple standalone connectors write to the same HDFS directory?
對於我們的管道,我們有大約 40 個主題(每個 10-25 個分區),我們希望在獨立模式下使用 HDFS 3 Sink 連接器將它們寫入同一個 HDFS 目錄(分布式不適用於我們當前的設置)。 我們已嘗試在一個連接器上運行所有主題,但如果需要重新啟動,則在恢復偏移量時遇到問題。
如果我們在不同的獨立連接器之間划分主題,它們是否都可以寫入同一個 HDFS 目錄? 由於連接器然后按主題組織 HDFS 中的所有文件,我認為這不應該是一個問題,但我想知道是否有人對此設置有經驗。
基本示例: Connector-1 配置
name=connect-1
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic1
hdfs.url=hdfs://kafkaOutput
連接器 2 配置
name=connect-2
connector.class=io.confluent.connect.hdfs3.Hdfs3SinkConnector
topics=topic2
hdfs.url=hdfs://kafkaOutput
分布式不適用於我們當前的設置
您應該能夠運行connect-distibured
作為完全相同的節點connect-standalone
為然。
我們嘗試在一個連接器上運行所有主題,但如果需要重新啟動,則在恢復偏移量時遇到問題
是的,我建議不要將所有topics
捆綁到一個連接器中。
如果我們在不同的獨立連接器之間划分主題,它們是否都可以寫入同一個 HDFS 目錄?
這是我個人的建議,是的,他們可以,因為 HDFS 路徑以主題名稱命名,並由分區方案進一步拆分
注意:以下允許適用於所有其他存儲連接器(S3 和 GCS)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.