标签[java-pair-rdd] - 堆栈内存溢出

CustomPartiton 一个 JavaPairRDD - CustomPartiton a JavaPairRDD

我从两个不同的数据集创建了一个 JavaPairRDD——第一个是来自 METIS 图分区算法的 output 文件，第二个是 METIS 图分区器的输入图。 JavaPairRDD 的键值对构造为：打印后的 RDD 如下所示： JavaPairRDD 的结构包含三个不同的元素。 < ...

java.lang.OutOfMemoryError: Java heap space AND org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4 - java.lang.OutOfMemoryError: Java heap space AND org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4

I try to execute the code and i get the the followind errors: java.lang.OutOfMemoryError: Java heap space org.apache.spark.shuffle.MetadataFetchFail ...

如果其中一个值为空，如何获取 Java 中的元组？索引出界 - How to get the Tuples in Java, if one of the Value is empty? IndexOutOfBound

我知道第二个列表没有更多的值，但在这种情况下我想存储null 。例如而不是这个，我得到错误我知道原因，因为我无法从 wtpList 中检索更多内容，因为它有 3 个元素。但是如果值不存在，我可以存储 null 。 ...

使用 Scala 将 JavapairRDD 转换为数据帧 - transform JavapairRDD to dataframe using scala

我有以下格式的 javapairRDD 键是一个多边形，值是多边形中的一个点例如：如何将此javapairRDD转换为具有三列的Dataframe ？ df: String, double, double 这里我的第一列是一个多边形，第二列是经度，第三列是纬度任何帮助将不胜感激 ...

如何在给定的 rdd 上应用 flatMapToPair？ - how to apply flatMapToPair on a given rdd?

我有一个JavaPairRDD<String, List<Tuple2<Integer, Integer>>>命名rddA 。例如（收集rddA ）： [(word1,[(187,267), (224,311), (187,110)]), (word2,[(18 ...

使用java将pairRDD转换为spark中的数据集 - Converting pairRDD to dataset in spark using java

如何使用java从pairRDD创建Spark数据集。能否请你帮忙？ ...

在Scala中迭代RDD可迭代 - Iterating over an RDD Iterable in Scala

因此，我是Scala的新手，刚开始使用RDD和功能性Scala操作。我正在尝试遍历我的Pair RDD的值，并通过应用定义的average函数，将Var1与存储在Var2中的值的average返回，以使最终返回值是Var1的唯一列表，并且每个AvgVar2具有一个AvgVar2 。我 ...

什么是正确的JavaRDD转换以对不交集上的行进行聚类 - What is the right JavaRDD transformation to cluster rows on disjoint sets

我在JavaPairRDD<String, MyPojo>中设置了行JavaPairRDD<String, MyPojo>其中MyPojo是具有属性的pojo （我们称其为HashSet<String> values ）。现在，我想基于与MyPojo. ...

JavaPairRDD到数据集 <Row> 在SPARK - JavaPairRDD to Dataset<Row> in SPARK

我有JavaPairRDD格式的数据我尝试使用下面的代码但是如何生成具有3列的数据集？由于上述代码的输出为我提供了两列数据。任何指示/建议？ ...

Java Spark如何保存JavaPairRDD <HashSet<String> ，HashMap <String, Double> >归档？ - Java Spark how to save a JavaPairRDD<HashSet<String>, HashMap<String, Double>> to file?

经过一些复杂的聚合后，我得到了这个“ JavaPairRDD<HashSet<String>, HashMap<String, Double>> ” RDD，想将结果保存到文件中。我相信saveAsHadoopFile是这样做的一个不错的API，但是在为s ...

如何在javapairrdd中使用containsAll和contains来使用过滤器 - how to use filter using containsAll and contains in javapairrdd

我有 2 个集合，一个是“列表”，另一个是“pairRdd2”，其中包含如下所述的数据。如果 mypairRdd2 包含列表中提到的所有值，我正在尝试使用 containsAll 应用过滤器。预期结果是 joe,{US,UK} 有人可以强调我做错了什么...... ...

如何相异JavaPairRDD - How to intersec differents JavaPairRDD

我有两个不同的JavaPairRdd，一个是Key1，value，另一个是key2，value。我试图实现的是合并它们，但仅获取具有相同值的项目。我尝试了以下方法：其中filteredRdd包含key：Country，值，而filteredsmallRdd包含：key：id ...

转换JavaPairRDD <ImmutableBytesWritable, Result> 到JavaRDD <String> - Convert JavaPairRDD<ImmutableBytesWritable, Result> to JavaRDD<String>

我正在尝试使用Apache Spark从HBase读取数据。我只想扫描一列。我正在创建我的HBase数据的RDD，如下所示这是我想将JavaPairRDD转换为字符串的JavaRDD的地方。我该如何实现？ ...

如何从JavaStreamingContext生成JavaPairInputDStream？ - How to generate JavaPairInputDStream from JavaStreamingContext?

我学习的Apache星火流媒体，并试图产生JavaPairInputDStream从JavaStreamingContext 。下面是我的代码：但是我的应用程序的最后一行抛出此异常：类型JavaStreamingContext的方法queueStream(Queue&l ...

在Java的Apache Spark中使用Tuple3时，combineByKey的替代方法是什么？ - What is the alternative for combineByKey while using Tuple3 in Apache Spark in Java?

我刚开始使用Java中的Apache Spark。我目前正在做一个包含一些书籍数据的迷你项目。我必须找到每个国家/地区最受欢迎的作家。我有一个pairRDD，其中键是国家/地区，值是作者，就像这样我是否必须使用Tuple3来添加一个字段并计算每个值出现的次数？如果是 ...

Spark将PairRDD转换为RDD - Spark convert PairRDD to RDD

将K和V都合并的将PairRDD转换为RDD的最佳方法是什么（在Java中）？例如，PairRDD包含K作为某些字符串，V包含JSON。我想将此K添加到值JSON并产生一个RDD。输入对RDD 输出应为和RDD如下 ...

在Spark Java API中将JavaPairRDD转换为Dataframe - Convert JavaPairRDD to Dataframe in Spark Java API

我在Java 7中使用Spark 1.6 我有一对RDD：我想将其转换为具有架构的DataFrame 。看来，首先我必须将pairRDD转换为RowRDD。那么如何从PairRDD创建RowRdd？ ...

如何将Dataset转换为JavaPairRDD？ - How to convert Dataset into JavaPairRDD?

有一些方法可以将数据集转换为JavaRDD。有没有其他方法可以将数据集转换为javaPairRDD<Long, Vector> ？ ...