cost 241 ms
PySpark RDD:操纵内部数组 - PySpark RDD: Manipulating Inner Array

我有一个数据集(例如) 打印语句返回 [(1, [2, 3, 4, 5])] 我现在需要在 RDD 中将子数组中的所有内容乘以 2。 由于我已经并行化,我无法进一步分解“y.take(1)”以将 [2, 3, 4, 5] 乘以 2。 我如何从本质上隔离我的工作节点之间的内部数组,然后进行乘法运算? ...

循环遍历 RDD 元素,读取其内容以进行进一步处理 - Loop through RDD elements, read its content for further processing

我有一个包含n个文件的文件夹。 我正在创建一个 RDD,其中包含上述文件夹的所有文件名,代码如下: 我想遍历这些RDD元素并处理以下步骤: 读取每个元素的内容(每个元素都是一个文件路径,所以需要通过SparkContext读取内容) 以上内容应该是另一个 RDD,我想将其作为参数传递给 Functi ...

如何在 RDD Python 中将元素列表转换为 1 或 0? - How do I convert list of elements to 1 or 0 in RDD Python?

我想让列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都为 1,而所有不在列表中的值都为 0。我该怎么做? 我有一本字典和一个列表: **我希望 output 如下所示:** 我想让列表 [1, 2, 3, 4, 5] 中的 my_dict 中的所有值都为 1,而所有不在列 ...

PicklingError:无法序列化 object:IndexError:元组索引超出范围 - PicklingError: Could not serialize object: IndexError: tuple index out of range

我在 cmd 中启动了 pyspark 并执行了以下操作以提高我的技能。 当我执行 a.take(1) 时,出现“_pickle.PicklingError:无法序列化 object:IndexError:元组索引超出范围”错误,我无法找到原因。 在 google colab 上运行时,它不会抛出任 ...

Pyspark 减少 function 导致 StackOverflowError - Pyspark reduce function causes StackOverflowError

我正在使用一个相当大的 dataframe(大约 10 万行,目的是达到 1000 万行)并且它具有以下结构: 我想添加一个 label 并且我正在使用以下 function 来这样做: 其中blocks是一个包含块的列表(让我们称之为令牌)定义行是否异常。 此函数检查Content字段是否包含b ...

在 Spark 作业之间共享存储级别为 NONE 的 RDD - Sharing RDDs with storage level NONE among Spark jobs

我有多个 Spark 作业,它们共享数据流图的一部分,包括昂贵的洗牌操作。 如果我坚持使用 RDD,我会看到预期的巨大改进 (22x)。 然而,即使我将这些 RDD 的存储级别保持为NONE ,仅通过在作业之间共享 RDD,我仍然看到高达 4 倍的改进。 为什么? 我假设 Sark 总是重新计算存 ...

如何在 reduceByKey 结果上操作 reduceByKey - How to operate reduceByKey on a reduceByKey result

我正在尝试对reduceByKey结果执行reduceByKey 。 目标是看看我们每年是否有长尾效应——这里的长尾意味着我想每年(分别)看到今年销售额的 65% 或更多来自 20% 或更少的产品。 这是我的数据集:数据集 - 年份和 asin(它的 ID) 我想首先 - 按年减少,然后每年(分别 ...

2022-12-21 12:59:05   2   34    pyspark / rdd  
在 Python 中使用 Spark Core 组合来自 JSON 和 CSV 文件的数据 - Combining data from JSON and CSV files using Spark Core in Python

尝试编写一个 Python 脚本,该脚本从 Google Drive 文件中获取一个 JSON 文件和多个 CSV 文件,并仅使用 Spark Core 分析和操作其数据。 此代码的 function 是用 JSON 和 CSV 文件中的数据创建元组。 这两个文件共享一个共同的信息项,这是每个文件( ...

PySpark count() 无法处理 684 GB.txt 文件 - PySpark count() can't process 684 GB .txt file

我正在使用 PySpark 来查看每个时间戳使用count()在这个非常大的数据集中出现了多少次。 我的数据集来自一个684 GB的 .txt 文件。 但是,当我使用 count() 时,它会花费很长时间并最终停止尝试处理。 我的工作计算机有 16 GB Memory 和 4 个 CPU 内核。 我 ...

如何在不同的 ggplot 散点图中以不同方式描绘我的 lm() model? - How can I portray my lm() model across different ggplot scatterplot differently?

我目前正在根据多个因素(准确地说是 7 个不同的变量)对 GDP 进行回归,我的 x 变量是季度日期(2006 年第一季度到 2020 年第四季度)。 我需要 plot 我的散点图 plot 用于带有日期的 GDP 和 plot 我的 lm() 线性线在它上面。 我不能使用 geom_smooth ...

Spark dataframe map 根键与字符串类型的另一列数组的元素 - Spark dataframe map root key with elements of array of another column of string type

实际上我遇到了一个问题,我有一个 dataframe,其中 2 列具有架构 actions 列实际上包含对象数组,但它的类型是字符串,因此我不能在这里使用 explode 样本数据: 每个 object 操作中还有一些其他键,但为简单起见,我在这里取了 2 个。 我想将其转换为以下格式 OUTPU ...

BigDL docker 容器错误:Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误 - BigDL docker container error: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe

我从这个 BigDL 图像创建了一个 docker 容器。 当我尝试使用 collect() 收集预测时,出现此错误:Py4JJavaError:调用 z:org.apache.spark.api.python.PythonRDD.collectAndServe 时发生错误。 PS:java版本是 ...

使用 rdd.map 将 html 转换为 json - convert html to json using rdd.map

我有 html 文件,我想在 pySpark 中解析它。 例子: 但在我的笔记本 output 中,我对列表元素有疑问。 它们被错误地解析。 列表元素表示为一个字符串行。 我的 function 来解析它: txt 文件中的结果是我想接收: 但在我的笔记本 output 中,我对列表元素有疑问。 ...

在不使用 rdd 的情况下将数据块中的 pyspark dataframe 列转换为列表 - convert a pyspark dataframe column in databricks as a list without using rdd

我试图收集数据块中 pyspark dataframe 列的值作为列表。 当我使用 collect function ,我得到一个包含额外值的列表。 基于一些搜索, using.rdd.flatmap() 可以解决问题但是,出于某些安全原因(它说 rdd 未列入白名单),我无法执行或使用 rdd。 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM