cost 145 ms
Kafka RoundRobin 分區程序未將消息分發到所有分區

[英]Kafka RoundRobin partitioner not distributing messages to all the partitions

我正在嘗試使用 Kafka 的 RoundRobinPartitioner class 在所有分區之間均勻分布消息。 我的Kafka主題配置如下: 名稱:multischemakafkatopicodd 分區數:16 復制因子:2 比如說,如果我產生 100 條消息,那么每個分區應該有 6 或 7 ...

加入帶有自定義分區程序的 spark 數據幀的技術可以使用 python,但不適用於 Scala?

[英]Technique for joining with spark dataframe w/ custom partitioner works w/ python, but not scala?

我最近閱讀了一篇文章,描述了如何對數據幀進行自定義分區 [ https://dataninjago.com/2019/06/01/create-custom-partitioner-for-spark-dataframe/ ],其中作者在 Python 中說明了該技術. 我使用 Scala,該技術看 ...

默認的Kafka分區程序創建哈希鍵沖突

[英]The default Kafka partitioner create hash key collision

我有一個包含10個分區的主題,並且已經生成了A,B,C,D,E,F,G,H,I 9個不同鍵的事件。 我觀察到了這樣做的消息: 在同一分區中有2條消息具有不同的鍵,並且也有空分區。 Kafka的默認分區程序會產生沖突嗎? 我正在從一個平衡的流向兩個默認的剩余生產者進行生產 ...

“ Exchange哈希分區”如何在Spark中發揮作用

[英]how is “Exchange hashpartitioning” working in spark

我有一個數據集,我想將其寫到鑲木地板文件中,以獲取隨后通過Spark(包括謂詞下推)請求這些文件的好處。 目前,我按列和分區數使用了重新分區,以將數據移至特定分區。 該列標識相應的分區(從0到(固定)n)。 結果是,scala / spark產生了意外的結果並創建了更少的分區(其中一些 ...

自定義分區程序以平衡輸入到減速器

[英]Customize Partitioner to balance inputs to reducers

假設我的映射器輸出N個鍵(這些鍵不同),並且我有K個縮減器。 如何編寫自定義的Paritioner,以便每個reducer都能接收大約N / K鍵? 哪個密鑰轉到哪個密鑰接收並不重要。 示例:假設我的映射器輸出10對<k1,v1>,<k2,v2>,<k3, ...

為什么第一次調用C#的並行處理要慢得多?

[英]Why is a parallel-processing much slower for a first call in C#?

我正在嘗試使用C#app盡快處理數字。 我使用Thread.Sleep()來模擬處理和隨機數。 我使用3種不同的技術。 這是我使用的測試代碼: 對於每種技術,我重新啟動程序。 我得到了這些結果, 有一個Thread.Sleep( 1 ) : 哪里 total是 ...

如何在Java中編寫Kafka Consumer Client以使用來自多個代理的消息?

[英]How to write Kafka Consumer Client in java to consume the messages from multiple brokers?

我正在尋找Java客戶端(Kafka Consumer)來使用來自多個代理的消息。 請指教 下面是使用簡單的分區程序將消息發布到多個代理的代碼。 使用復制因子“ 2”和分區“ 3”創建主題。 bootstrap.servers = [本地主機:9092,本地主機:9093, ...

shuffle階段和組合階段之間有什么區別?

[英]What's the difference between shuffle phase and combiner phase?

我對MapReduce框架非常困惑。 我從不同的消息來源讀到這個問題很困惑。 順便說一句,這是我對MapReduce Job的想法 這基本上是對的嗎? 我的意思是,我發現一些消息來源說組合器是洗牌階段,它基本上按鍵分組每個記錄...... ...

如何在分區器 hadoop 中使用分布式緩存?

[英]How to use Distributed cache in partitioner hadoop?

我是 hadoop 和 mapreduce 分區程序的新手。我想編寫自己的分區程序,我需要讀取分區程序中的文件。 我已經搜索了很多次,我知道我應該使用分布式緩存。 這是我的問題,如何在我的 hadoop 分區器中使用分布式緩存? 我應該在我的分區器中寫什么? 謝謝 ...

組合器和分區器之間的區別

[英]Difference between combiner and partitioner

我是MapReduce的新手,我無法弄清楚分區器和組合器的區別。 我知道兩者都在map和reduce任務之間的中間步驟中運行,並且都減少了reduce任務要處理的數據量。 請用一個例子來解釋差異。 ...

Hadoop Map Reduce-Reducer的數量

[英]Hadoop Map Reduce - Number of Reducer

我有具有不同年齡組的公司員工數據的用例。 我需要找到三個年齡段類別的男性和女性雇員的最高薪水。 有關詳細信息,請轉到下面的鏈接- http://www.myhadoopexamples.com/2014/03/01/hadoop-mapreduce-example-with-par ...

分區程序無法正常工作

[英]Partitioner is not working correctly

我正在嘗試編碼一個MapReduce場景,在該場景中,我已經以JSON的形式創建了一些User ClickStream數據。 之后,我編寫了Mapper類以從文件中獲取所需的數據,我的Mapper代碼為:- } 我的減速器代碼是:- 我的分區代碼是:- 這是我的驅 ...

如果在Hadoop Map Reduce中定義了自定義分區程序,則默認哈希分區程序是否仍然有效?

[英]Does the default hash partitioner still work if a custom partitioner is defined in Hadoop Map Reduce?

當我剛接觸hadoop時,我嘗試了http://www.tutorialspoint.com/map_reduce/map_reduce_partitioner.htm中的示例代碼,發現該程序根據年齡段使用了3個不同的分區,還使用了3個reducer,這是期待。 但是在化簡器代碼中(這里的性別 ...

如果使用自定義分區程序為具有相同密鑰的記錄選擇不同的分區,該怎么辦?

[英]What if a custom partitioner is made to select different partitions for records having the same key?

在學習Hadoop MapReduce時,我遇到了如何創建自定義Partitioner類。 我知道我們需要在類中定義抽象的getPartition方法。 該方法應該返回當前鍵值對的分區號(整數)。 現在,分區數將等於作業的reduce任務數。 如果在自定義分區程序中,編寫一些邏輯來根 ...

Hadoop自定義分區程序未按照邏輯進行操作

[英]Hadoop Custom Partitioner not behaving according to the logic

根據此處的示例,此方法有效。 在我的數據集上嘗試了相同的方法。 樣本數據集: 將每行視為字符串,我的Mapper輸出為: 鍵->字符串[2],值->字符串。 我的分區程序代碼: 在我的數據集中,大多數ID為137176。Reducer聲明為- ...

為什么拆分點在Hadoop總訂單分區器上出現故障?

[英]Why split points are out of order on Hadoop total order partitioner?

我使用Hadoop總訂單分區程序和隨機采樣器作為輸入采樣器。 但是,當我增加從節點並將任務減少到8個時,出現以下錯誤: 我不知道此錯誤的原因。 如何在inputsampler.randomsampler函數上設置三個參數的數量? ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM