標簽[mapreduce] - 堆棧內存溢出

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一個 Python 腳本，它運行統計分析並對輸入數據訓練深度學習模型。數據量相當小 (~5Mb)，但由於分析腳本的復雜性，速度很慢。我想知道是否可以使用 Spark 在集群的不同節點上運行我的腳本，以便我可以獲得加速。基本上，我想將輸入數據分成許多子集並並行運行分析腳本。 Spark ...

在 Flink 中是否可以將 state 與非鍵控 stream 一起使用？

[英]In Flink is it possible to use state with a non keyed stream?

讓我們假設我有一個輸入 DataStream 並想實現一些需要“內存”的功能，所以我需要 ProcessFunction 讓我可以訪問 state。是否可以直接對 DataStream 進行操作，或者唯一的方法是通過初始 stream 進行鍵控並在鍵控上下文中工作？我認為一種解決方案是使用硬編碼 ...

hadoop 從 hdfs 中現有的存檔文件中獲取文件

[英]hadoop get files from existing archived file in hdfs

我有一個包含 8 個文件的目錄“SmallFiles”，我使用“hadoop archive -archiveName myArch.har -p /Files/SmallFiles /Files”將它們存檔，然后刪除了原始文件。我想知道如何再次提取文件？當我下載它時，我得到這 3 個文件“in ...

關於spark分布式聚合的一個問題

[英]A question about spark distributied aggregation

我正在閱讀這里的火花在某一時刻，博客說：考慮一個應用程序，它想要計算語料庫中每個單詞的出現次數，並將結果作為 map 拉入驅動程序。可以通過聚合操作完成的一種方法是在每個分區計算本地 map，然后合並司機的地圖。可以使用 aggregateByKey 實現的替代方法是以完全分布式的方式執行計數， ...

如何找出 MongoDB 數組中元素的數量？

[英]How to find out number of elements in MongoDB array?

我的產品集合包括_id 、 product/title 、 product/price和reviews 。 Reviews是一個數組，其中包含該特定產品的所有評論。我試圖打印出評論數量最多的 10 個產品，但找不到合適的解決方案。到目前為止，這是我嘗試過的：當我運行這段代碼時，它打印出 1 ...

如何檢查集合中是否存在具有多個值的鍵？

[英]How to check if there is a key in collection that has more than one value?

我的收藏看起來像這樣：我的目標是找出是否有任何產品具有多個價格。鍵“產品/價格”的值可以是“未知”或數字（例如“12.75”）。有沒有辦法為此編寫聚合管道，或者我是否需要使用 map-reduce 算法？我嘗試了這兩種選擇，但沒有找到解決方案。 ...

如何在本地Window機器上調試測試MapReduce？

[英]How to debug and test MapReduce on local Window machine?

我發現調試和測試 MapReduce 項目具有挑戰性。為了調試和測試，我通常獲取上面的腳本並將其放入public static void main(String[] args)在另一個測試 class 中並在 Intellij IDEA 的調試模式下運行並從本地文件系統讀取示例數據。因此，我很 ...

在 aws emr 作業流程中，每個步驟是否都收到上一步的 output？

[英]in aws emr job flow, does each step receive the output from the previous step?

我正在 Java 中制作一個 map reduce 程序，它有 4 個步驟。每一步都是對上一步的output進行操作。到目前為止，我在本地手動運行了這些步驟，我想開始使用作業流程在 AWS EMR 上運行。我的教授給了我們一些代碼來配置作業流程的步驟，但現在我們面臨一個問題：我的每個步驟都 ...

Hadoop Mapreduce 作業中的 OptionConverter.convertLevel 錯誤

[英]OptionConverter.convertLevel Error in Hadoop Mapreduce job

在我的 Hadoop 集群中執行 mapreduce 作業時出現奇怪的錯誤。此錯誤是間歇性的。有時，它會使映射器失敗，有時即使拋出錯誤也會成功。 2022-12-28 01:20:53,882 ERROR [main] org.apache.hadoop.mapred.YarnChild: Er ...

spark如何計算hash shuffle中reducer的數量？

[英]How does spark calculate the number of reducers in a hash shuffle?

我想了解 Spark 中的哈希隨機播放。我正在閱讀這篇文章 Hash Shuffle：每個 mapper 任務為每個單獨的 reducer 創建單獨的文件，導致集群上的文件總數為 M * R，其中 M 是“映射器”的數量，R 是“reducer”的數量。對於大量的映射器和縮減器，這會導致很大的 ...

NoSuchMethodError：org/apache/hadoop/mapreduce/util/MRJobConfUtil.setTaskLogProgressDeltaThresholds

[英]NoSuchMethodError: org/apache/hadoop/mapreduce/util/MRJobConfUtil.setTaskLogProgressDeltaThresholds

在我的 hadoop 集群（分布式集群）中執行 mapreduce 作業時出現以下錯誤。我在映射器失敗的 Yarn 應用程序日志中發現了以下錯誤。 ...

有必要從線條中划出句點

[英]Necessary to make periods from the lines

我們有我們需要得到我試圖通過地圖來做，但結果是某種廢話 ...

我可以用函數 mr 返回一個非分區表嗎？

[英]Can I return a non-partitioned table with function mr?

我編寫了下面的代碼以使用函數mr返回表 t。但是將表 t 與內存表連接會引發一個錯誤，要求兩個表都未分區。將 t 轉換為非分區的任何有效方法？ ...

Hadoop MapReduce 作業在 launch_container.sh 中失敗

[英]Hadoop MapReduce job failing in launch_container.sh

MapReduce 作業失敗並出現以下錯誤，即使設置了 JAVA_HOME。我正在嘗試在我的 Mac M1 上設置 hadoop (3.3.4)。我在 /etc/hadoop/hadoop-env.sh 中設置了 JAVA_HOME 我能夠將文件添加到 HDFS 但在運行示例 MapReduc ...

使用 Apache Spark 或其他類似解決方案返回按天分配的總和的有效方法是什么？

[英]What is an effective way to return sum distributed by days using Apache Spark or another similiar solution?

假設我們有許多具有屬性的記錄：id、start_day、end_date、sum。這些記錄具有由開始日期和結束日期定義的不同時期，並且這些時期的長度不同。我需要得到一組記錄作為結果，例如：對於每一天和每個時期。因此，每條記錄的總和分布在屬於該記錄期間的所有日期之間。例如，如果我有初始集： ...

如何高效地統計每個文件的WordCount？

[英]How to efficiently WordCount for each file?

我在 dir demotxt中有數萬個文件，例如：demotxt/ aa.txt this is aaa1 this is aaa2 this is aaa3 bb.txt this i ...

Pyspark MapReduce - 如何獲取元組列表中出現的次數

[英]Pyspark MapReduce - how to get number occurrences in a list of tuple

我有一個像這樣的列表：並且我將以下 map 函數應用到 map 的每一行，其中包含出現次數：map(lambda x: ((x.split(',')[0], x.split(',')[1]), 1)) 要得到這個：我的最終目標是找到兩個人（用字母表示）具有相同日期的次數，例如上面的示例中的 o ...

按 ID 和 JavaScript 中的項目減少數組

[英]Reduce an array by ID and by item in JavaScript

我有一個安排，我需要根據參加活動的用戶取一個總和的平均值我有一個數組，其中有一個活動列表，因此假設整個組織都參加了“2022-11-25”這一天的活動，這是一個星期五，因此狀態isAttendanceAllOrg為 true 因此， usersNotAttendance數組為空，但在星期六的“202 ...

錯誤 org.apache.hadoop.conf.Configuration：錯誤解析 conf mapred-site.xml

[英]ERROR org.apache.hadoop.conf.Configuration: error parsing conf mapred-site.xml

在此處輸入圖像描述有一個例外，我無法啟動hadoop， ...

計算減速器中的平均溫度

[英]Calculate average temperature in reducer

我正在嘗試編寫一個代碼來根據 ncdc 天氣計算平均溫度 (reducer.py)。 ...