標簽[partitioner] - 堆棧內存溢出

[英]Kafka RoundRobin partitioner not distributing messages to all the partitions

我正在嘗試使用 Kafka 的 RoundRobinPartitioner class 在所有分區之間均勻分布消息。我的Kafka主題配置如下：名稱：multischemakafkatopicodd 分區數：16 復制因子：2 比如說，如果我產生 100 條消息，那么每個分區應該有 6 或 7 ...

加入帶有自定義分區程序的 spark 數據幀的技術可以使用 python，但不適用於 Scala？

[英]Technique for joining with spark dataframe w/ custom partitioner works w/ python, but not scala?

我最近閱讀了一篇文章，描述了如何對數據幀進行自定義分區 [ https://dataninjago.com/2019/06/01/create-custom-partitioner-for-spark-dataframe/ ]，其中作者在 Python 中說明了該技術. 我使用 Scala，該技術看 ...

默認的Kafka分區程序創建哈希鍵沖突

[英]The default Kafka partitioner create hash key collision

我有一個包含10個分區的主題，並且已經生成了A,B,C,D,E,F,G,H,I 9個不同鍵的事件。我觀察到了這樣做的消息：在同一分區中有2條消息具有不同的鍵，並且也有空分區。 Kafka的默認分區程序會產生沖突嗎？我正在從一個平衡的流向兩個默認的剩余生產者進行生產 ...

如何在加入 Spark 之前正確應用 HashPartitioner？

[英]How to properly apply HashPartitioner before a join in Spark?

為了減少加入兩個 RDD 期間的混洗，我決定首先使用 HashPartitioner 對它們進行分區。這是我如何做到的。我做得對嗎，還是有更好的方法來做到這一點？ ...

“ Exchange哈希分區”如何在Spark中發揮作用

[英]how is “Exchange hashpartitioning” working in spark

我有一個數據集，我想將其寫到鑲木地板文件中，以獲取隨后通過Spark（包括謂詞下推）請求這些文件的好處。目前，我按列和分區數使用了重新分區，以將數據移至特定分區。該列標識相應的分區（從0到（固定）n）。結果是，scala / spark產生了意外的結果並創建了更少的分區（其中一些 ...

自定義分區程序以平衡輸入到減速器

[英]Customize Partitioner to balance inputs to reducers

假設我的映射器輸出N個鍵（這些鍵不同），並且我有K個縮減器。如何編寫自定義的Paritioner，以便每個reducer都能接收大約N / K鍵？哪個密鑰轉到哪個密鑰接收並不重要。示例：假設我的映射器輸出10對<k1,v1>,<k2,v2>,<k3, ...

為什么第一次調用C＃的並行處理要慢得多？

[英]Why is a parallel-processing much slower for a first call in C#?

我正在嘗試使用C＃app盡快處理數字。我使用Thread.Sleep()來模擬處理和隨機數。我使用3種不同的技術。這是我使用的測試代碼：對於每種技術，我重新啟動程序。我得到了這些結果，有一個Thread.Sleep( 1 ) ：哪里 total是 ...

Hadoop Oozie MapReduce操作自定義分區程序

[英]Hadoop Oozie MapReduce Action Custom Partitioner

如何在oozie工作流XML上為MapReduce Action配置自定義分區程序？我嘗試使用： ...

HashPartitioner類型不是org.apache.spark.sql.SparkSession的成員

[英]type HashPartitioner is not a member of org.apache.spark.sql.SparkSession

我正在使用spark-shell來測試Spark的HashPartitioner。錯誤顯示如下：第二項操作失敗，而第三項操作正常。為什么spark-shell在org.apache.spark.sql.SparkSession包而不是org.apache.spark包中尋找sp ...

如何在Java中編寫Kafka Consumer Client以使用來自多個代理的消息？

[英]How to write Kafka Consumer Client in java to consume the messages from multiple brokers?

我正在尋找Java客戶端（Kafka Consumer）來使用來自多個代理的消息。請指教下面是使用簡單的分區程序將消息發布到多個代理的代碼。使用復制因子“ 2”和分區“ 3”創建主題。 bootstrap.servers = [本地主機：9092，本地主機：9093， ...

為什么 sortBy 轉換會觸發 Spark 作業？

[英]Why does sortBy transformation trigger a Spark job?

根據 Spark 文檔，只有 RDD 操作可以觸發 Spark 作業，並且在對其調用操作時會延遲評估轉換。我看到sortBy轉換函數立即應用，它在 SparkUI 中顯示為作業觸發器。為什么？ ...

shuffle階段和組合階段之間有什么區別？

[英]What's the difference between shuffle phase and combiner phase?

我對MapReduce框架非常困惑。我從不同的消息來源讀到這個問題很困惑。順便說一句，這是我對MapReduce Job的想法這基本上是對的嗎？我的意思是，我發現一些消息來源說組合器是洗牌階段，它基本上按鍵分組每個記錄...... ...

如何在分區器 hadoop 中使用分布式緩存？

[英]How to use Distributed cache in partitioner hadoop?

我是 hadoop 和 mapreduce 分區程序的新手。我想編寫自己的分區程序，我需要讀取分區程序中的文件。我已經搜索了很多次，我知道我應該使用分布式緩存。這是我的問題，如何在我的 hadoop 分區器中使用分布式緩存？我應該在我的分區器中寫什么？謝謝 ...

組合器和分區器之間的區別

[英]Difference between combiner and partitioner

我是MapReduce的新手，我無法弄清楚分區器和組合器的區別。我知道兩者都在map和reduce任務之間的中間步驟中運行，並且都減少了reduce任務要處理的數據量。請用一個例子來解釋差異。 ...

Hadoop Map Reduce-Reducer的數量

[英]Hadoop Map Reduce - Number of Reducer

我有具有不同年齡組的公司員工數據的用例。我需要找到三個年齡段類別的男性和女性雇員的最高薪水。有關詳細信息，請轉到下面的鏈接- http://www.myhadoopexamples.com/2014/03/01/hadoop-mapreduce-example-with-par ...

分區程序無法正常工作

[英]Partitioner is not working correctly

我正在嘗試編碼一個MapReduce場景，在該場景中，我已經以JSON的形式創建了一些User ClickStream數據。之后，我編寫了Mapper類以從文件中獲取所需的數據，我的Mapper代碼為：- } 我的減速器代碼是：- 我的分區代碼是：- 這是我的驅 ...

如果在Hadoop Map Reduce中定義了自定義分區程序，則默認哈希分區程序是否仍然有效？

[英]Does the default hash partitioner still work if a custom partitioner is defined in Hadoop Map Reduce?

當我剛接觸hadoop時，我嘗試了http://www.tutorialspoint.com/map_reduce/map_reduce_partitioner.htm中的示例代碼，發現該程序根據年齡段使用了3個不同的分區，還使用了3個reducer，這是期待。但是在化簡器代碼中（這里的性別 ...

如果使用自定義分區程序為具有相同密鑰的記錄選擇不同的分區，該怎么辦？

[英]What if a custom partitioner is made to select different partitions for records having the same key?

在學習Hadoop MapReduce時，我遇到了如何創建自定義Partitioner類。我知道我們需要在類中定義抽象的getPartition方法。該方法應該返回當前鍵值對的分區號（整數）。現在，分區數將等於作業的reduce任務數。如果在自定義分區程序中，編寫一些邏輯來根 ...

Hadoop自定義分區程序未按照邏輯進行操作

[英]Hadoop Custom Partitioner not behaving according to the logic

根據此處的示例，此方法有效。在我的數據集上嘗試了相同的方法。樣本數據集：將每行視為字符串，我的Mapper輸出為：鍵->字符串[2]，值->字符串。我的分區程序代碼：在我的數據集中，大多數ID為137176。Reducer聲明為- ...

為什么拆分點在Hadoop總訂單分區器上出現故障？

[英]Why split points are out of order on Hadoop total order partitioner?

我使用Hadoop總訂單分區程序和隨機采樣器作為輸入采樣器。但是，當我增加從節點並將任務減少到8個時，出現以下錯誤：我不知道此錯誤的原因。如何在inputsampler.randomsampler函數上設置三個參數的數量？ ...