标签[mapreduce] - 堆栈内存溢出

Spark 是否适合在许多节点中自动运行统计分析脚本以加快速度？ - Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一个 Python 脚本，它运行统计分析并对输入数据训练深度学习模型。数据量相当小 (~5Mb)，但由于分析脚本的复杂性，速度很慢。我想知道是否可以使用 Spark 在集群的不同节点上运行我的脚本，以便我可以获得加速。基本上，我想将输入数据分成许多子集并并行运行分析脚本。 Spark ...

在 Flink 中是否可以将 state 与非键控 stream 一起使用？ - In Flink is it possible to use state with a non keyed stream?

让我们假设我有一个输入 DataStream 并想实现一些需要“内存”的功能，所以我需要 ProcessFunction 让我可以访问 state。是否可以直接对 DataStream 进行操作，或者唯一的方法是通过初始 stream 进行键控并在键控上下文中工作？我认为一种解决方案是使用硬编码 ...

hadoop 从 hdfs 中现有的存档文件中获取文件 - hadoop get files from existing archived file in hdfs

我有一个包含 8 个文件的目录“SmallFiles”，我使用“hadoop archive -archiveName myArch.har -p /Files/SmallFiles /Files”将它们存档，然后删除了原始文件。我想知道如何再次提取文件？当我下载它时，我得到这 3 个文件“in ...

关于spark分布式聚合的一个问题 - A question about spark distributied aggregation

我正在阅读这里的火花在某一时刻，博客说：考虑一个应用程序，它想要计算语料库中每个单词的出现次数，并将结果作为 map 拉入驱动程序。可以通过聚合操作完成的一种方法是在每个分区计算本地 map，然后合并司机的地图。可以使用 aggregateByKey 实现的替代方法是以完全分布式的方式执行计数， ...

如何找出 MongoDB 数组中元素的数量？ - How to find out number of elements in MongoDB array?

我的产品集合包括_id 、 product/title 、 product/price和reviews 。 Reviews是一个数组，其中包含该特定产品的所有评论。我试图打印出评论数量最多的 10 个产品，但找不到合适的解决方案。到目前为止，这是我尝试过的：当我运行这段代码时，它打印出 1 ...

如何检查集合中是否存在具有多个值的键？ - How to check if there is a key in collection that has more than one value?

我的收藏看起来像这样：我的目标是找出是否有任何产品具有多个价格。键“产品/价格”的值可以是“未知”或数字（例如“12.75”）。有没有办法为此编写聚合管道，或者我是否需要使用 map-reduce 算法？我尝试了这两种选择，但没有找到解决方案。 ...

如何在本地Window机器上调试测试MapReduce？ - How to debug and test MapReduce on local Window machine?

我发现调试和测试 MapReduce 项目具有挑战性。为了调试和测试，我通常获取上面的脚本并将其放入public static void main(String[] args)在另一个测试 class 中并在 Intellij IDEA 的调试模式下运行并从本地文件系统读取示例数据。因此，我很 ...

在 aws emr 作业流程中，每个步骤是否都收到上一步的 output？ - in aws emr job flow, does each step receive the output from the previous step?

我正在 Java 中制作一个 map reduce 程序，它有 4 个步骤。每一步都是对上一步的output进行操作。到目前为止，我在本地手动运行了这些步骤，我想开始使用作业流程在 AWS EMR 上运行。我的教授给了我们一些代码来配置作业流程的步骤，但现在我们面临一个问题：我的每个步骤都 ...

Hadoop Mapreduce 作业中的 OptionConverter.convertLevel 错误 - OptionConverter.convertLevel Error in Hadoop Mapreduce job

在我的 Hadoop 集群中执行 mapreduce 作业时出现奇怪的错误。此错误是间歇性的。有时，它会使映射器失败，有时即使抛出错误也会成功。 2022-12-28 01:20:53,882 ERROR [main] org.apache.hadoop.mapred.YarnChild: Er ...

spark如何计算hash shuffle中reducer的数量？ - How does spark calculate the number of reducers in a hash shuffle?

我想了解 Spark 中的哈希随机播放。我正在阅读这篇文章 Hash Shuffle：每个 mapper 任务为每个单独的 reducer 创建单独的文件，导致集群上的文件总数为 M * R，其中 M 是“映射器”的数量，R 是“reducer”的数量。对于大量的映射器和缩减器，这会导致很大的 ...

NoSuchMethodError：org/apache/hadoop/mapreduce/util/MRJobConfUtil.setTaskLogProgressDeltaThresholds - NoSuchMethodError: org/apache/hadoop/mapreduce/util/MRJobConfUtil.setTaskLogProgressDeltaThresholds

在我的 hadoop 集群（分布式集群）中执行 mapreduce 作业时出现以下错误。我在映射器失败的 Yarn 应用程序日志中发现了以下错误。 ...

有必要从线条中划出句点 - Necessary to make periods from the lines

我们有我们需要得到我试图通过地图来做，但结果是某种废话 ...

我可以用函数 mr 返回一个非分区表吗？ - Can I return a non-partitioned table with function mr?

我编写了下面的代码以使用函数mr返回表 t。但是将表 t 与内存表连接会引发一个错误，要求两个表都未分区。将 t 转换为非分区的任何有效方法？ ...

Hadoop MapReduce 作业在 launch_container.sh 中失败 - Hadoop MapReduce job failing in launch_container.sh

MapReduce 作业失败并出现以下错误，即使设置了 JAVA_HOME。我正在尝试在我的 Mac M1 上设置 hadoop (3.3.4)。我在 /etc/hadoop/hadoop-env.sh 中设置了 JAVA_HOME 我能够将文件添加到 HDFS 但在运行示例 MapReduc ...

使用 Apache Spark 或其他类似解决方案返回按天分配的总和的有效方法是什么？ - What is an effective way to return sum distributed by days using Apache Spark or another similiar solution?

假设我们有许多具有属性的记录：id、start_day、end_date、sum。这些记录具有由开始日期和结束日期定义的不同时期，并且这些时期的长度不同。我需要得到一组记录作为结果，例如：对于每一天和每个时期。因此，每条记录的总和分布在属于该记录期间的所有日期之间。例如，如果我有初始集： ...

如何高效地统计每个文件的WordCount？ - How to efficiently WordCount for each file?

我在 dir demotxt中有数万个文件，例如：demotxt/ aa.txt this is aaa1 this is aaa2 this is aaa3 bb.txt this i ...

Pyspark MapReduce - 如何获取元组列表中出现的次数 - Pyspark MapReduce - how to get number occurrences in a list of tuple

我有一个像这样的列表：并且我将以下 map 函数应用到 map 的每一行，其中包含出现次数：map(lambda x: ((x.split(',')[0], x.split(',')[1]), 1)) 要得到这个：我的最终目标是找到两个人（用字母表示）具有相同日期的次数，例如上面的示例中的 o ...

按 ID 和 JavaScript 中的项目减少数组 - Reduce an array by ID and by item in JavaScript

我有一个安排，我需要根据参加活动的用户取一个总和的平均值我有一个数组，其中有一个活动列表，因此假设整个组织都参加了“2022-11-25”这一天的活动，这是一个星期五，因此状态isAttendanceAllOrg为 true 因此， usersNotAttendance数组为空，但在星期六的“202 ...

错误 org.apache.hadoop.conf.Configuration：错误解析 conf mapred-site.xml - ERROR org.apache.hadoop.conf.Configuration: error parsing conf mapred-site.xml

在此处输入图像描述有一个例外，我无法启动hadoop， ...

计算减速器中的平均温度 - Calculate average temperature in reducer

我正在尝试编写一个代码来根据 ncdc 天气计算平均温度 (reducer.py)。 ...