标签[rdd] - 堆栈内存溢出

PySpark RDD：操纵内部数组 - PySpark RDD: Manipulating Inner Array

我有一个数据集（例如）打印语句返回 [(1, [2, 3, 4, 5])] 我现在需要在 RDD 中将子数组中的所有内容乘以 2。由于我已经并行化，我无法进一步分解“y.take(1)”以将 [2, 3, 4, 5] 乘以 2。我如何从本质上隔离我的工作节点之间的内部数组，然后进行乘法运算？ ...

从字典中添加 RDD Python 中的 NumpyArray 值 - Adding NumpyArray Values in RDD Python from Dictionary

如何分别在 RDD 中添加字典中的值？我有以下内容：我希望最终的 output 成为 numpy 数组中的以下内容：如何在 numpy 数组中添加这个 output？ ...

循环遍历 RDD 元素，读取其内容以进行进一步处理 - Loop through RDD elements, read its content for further processing

我有一个包含n个文件的文件夹。我正在创建一个 RDD，其中包含上述文件夹的所有文件名，代码如下：我想遍历这些RDD元素并处理以下步骤：读取每个元素的内容（每个元素都是一个文件路径，所以需要通过SparkContext读取内容）以上内容应该是另一个 RDD，我想将其作为参数传递给 Functi ...

根据Spark中的空行拆分文本文件 - Splitting a text file based on empty lines in Spark

我正在处理一个非常大的文件，它是一个几乎 2GB 的非常大的文本文档。像这样的东西 - 我想在 spark 中读取它们并根据 spark 中的空块拆分它们并在 PySpark 中创建这些数据的块。 #*Entity-relationship diagrams which are in BCNF # ...

如何在 RDD Python 中将元素列表转换为 1 或 0？ - How do I convert list of elements to 1 or 0 in RDD Python?

我想让列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都为 1，而所有不在列表中的值都为 0。我该怎么做？我有一本字典和一个列表： **我希望 output 如下所示：** 我想让列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都为 1，而所有不在列 ...

PicklingError：无法序列化 object：IndexError：元组索引超出范围 - PicklingError: Could not serialize object: IndexError: tuple index out of range

我在 cmd 中启动了 pyspark 并执行了以下操作以提高我的技能。当我执行 a.take(1) 时，出现“_pickle.PicklingError：无法序列化 object：IndexError：元组索引超出范围”错误，我无法找到原因。在 google colab 上运行时，它不会抛出任 ...

火花 dataframe 过滤器 function 不工作 - spark dataframe filter function not working

我是 spark 的新手，我们有一个从 hbase 读取数据并将其保存到 rdd 的项目。 dataframe 计数为 5280000，代码如下：val df = spark.createDataFrame(rddDump, schema) def sampledOrNot = udf((cou ...

groupbykey 之后的 spark rdd 过滤器 - spark rdd filter after groupbykey

在 groupByKey 之后我想过滤第二个元素不等于 1 并得到("b", (1, "m")),("b", (2, "n")), ("c", (1, "m")), ("c", (5, "m")) groupByKey()是必须的，可以帮助我，非常感谢。添加：但是如果第二个元素类型是strin ...

使用值使用 groupbykey 后对 rdd 进行排序 - Sorting an rdd after using groupbykey using values

我有JavaPairRDD作为由于groupbykey()不维护订单， orderby在这里不起作用。我想使用数据集中的一些字段对Iterable<Row>进行排序。 ...

Pyspark 减少 function 导致 StackOverflowError - Pyspark reduce function causes StackOverflowError

我正在使用一个相当大的 dataframe（大约 10 万行，目的是达到 1000 万行）并且它具有以下结构：我想添加一个 label 并且我正在使用以下 function 来这样做：其中blocks是一个包含块的列表（让我们称之为令牌）定义行是否异常。此函数检查Content字段是否包含b ...

在 Spark 作业之间共享存储级别为 NONE 的 RDD - Sharing RDDs with storage level NONE among Spark jobs

我有多个 Spark 作业，它们共享数据流图的一部分，包括昂贵的洗牌操作。如果我坚持使用 RDD，我会看到预期的巨大改进 (22x)。然而，即使我将这些 RDD 的存储级别保持为NONE ，仅通过在作业之间共享 RDD，我仍然看到高达 4 倍的改进。为什么？我假设 Sark 总是重新计算存 ...

如何在 reduceByKey 结果上操作 reduceByKey - How to operate reduceByKey on a reduceByKey result

我正在尝试对reduceByKey结果执行reduceByKey 。目标是看看我们每年是否有长尾效应——这里的长尾意味着我想每年（分别）看到今年销售额的 65% 或更多来自 20% 或更少的产品。这是我的数据集：数据集 - 年份和 asin（它的 ID）我想首先 - 按年减少，然后每年（分别 ...

在 Python 中使用 Spark Core 组合来自 JSON 和 CSV 文件的数据 - Combining data from JSON and CSV files using Spark Core in Python

尝试编写一个 Python 脚本，该脚本从 Google Drive 文件中获取一个 JSON 文件和多个 CSV 文件，并仅使用 Spark Core 分析和操作其数据。此代码的 function 是用 JSON 和 CSV 文件中的数据创建元组。这两个文件共享一个共同的信息项，这是每个文件（ ...

PySpark count() 无法处理 684 GB.txt 文件 - PySpark count() can't process 684 GB .txt file

我正在使用 PySpark 来查看每个时间戳使用count()在这个非常大的数据集中出现了多少次。我的数据集来自一个684 GB的 .txt 文件。但是，当我使用 count() 时，它会花费很长时间并最终停止尝试处理。我的工作计算机有 16 GB Memory 和 4 个 CPU 内核。我 ...

如何在不同的 ggplot 散点图中以不同方式描绘我的 lm() model？ - How can I portray my lm() model across different ggplot scatterplot differently?

我目前正在根据多个因素（准确地说是 7 个不同的变量）对 GDP 进行回归，我的 x 变量是季度日期（2006 年第一季度到 2020 年第四季度）。我需要 plot 我的散点图 plot 用于带有日期的 GDP 和 plot 我的 lm() 线性线在它上面。我不能使用 geom_smooth ...

Spark dataframe map 根键与字符串类型的另一列数组的元素 - Spark dataframe map root key with elements of array of another column of string type

实际上我遇到了一个问题，我有一个 dataframe，其中 2 列具有架构 actions 列实际上包含对象数组，但它的类型是字符串，因此我不能在这里使用 explode 样本数据：每个 object 操作中还有一些其他键，但为简单起见，我在这里取了 2 个。我想将其转换为以下格式 OUTPU ...

如何计算 pyspark 流媒体中按类别的平均值？ - How to calculate average by category in pyspark streaming?

我有 csv 数据作为 DStreams 来自流量计数器。样本如下我想按车辆类别计算平均速度（每个位置）。我想通过转型来实现这一目标。以下是我正在寻找的结果。 ...

BigDL docker 容器错误：Py4JJavaError：调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误 - BigDL docker container error: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe

我从这个 BigDL 图像创建了一个 docker 容器。当我尝试使用 collect() 收集预测时，出现此错误：Py4JJavaError：调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误。 PS：java版本是 ...

使用 rdd.map 将 html 转换为 json - convert html to json using rdd.map

我有 html 文件，我想在 pySpark 中解析它。例子：但在我的笔记本 output 中，我对列表元素有疑问。它们被错误地解析。列表元素表示为一个字符串行。我的 function 来解析它： txt 文件中的结果是我想接收：但在我的笔记本 output 中，我对列表元素有疑问。 ...

在不使用 rdd 的情况下将数据块中的 pyspark dataframe 列转换为列表 - convert a pyspark dataframe column in databricks as a list without using rdd

我试图收集数据块中 pyspark dataframe 列的值作为列表。当我使用 collect function ，我得到一个包含额外值的列表。基于一些搜索， using.rdd.flatmap() 可以解决问题但是，出于某些安全原因（它说 rdd 未列入白名单），我无法执行或使用 rdd。 ...