标签[scala-spark] - 堆栈内存溢出

Spark-Scala：根据其他列的值创建拆分行 - Spark-Scala : Create split rows based on the value of other column

我有如下输入 ID 尺寸 1个 4个 2个 2个 output - 如果输入为 4（大小列）拆分 4 次（1-4），如果输入大小列值为 2，则将其拆分 1-2 次。 ID 尺寸 1个 1个 1个 2个 1个 3个 1个 4个 2个 1个 2个 2个 ...

根据为 Scala Spark 中列表中的值给出的阈值，将标记添加到 DataFrame 中的列表 - Add a tag to the list in the DataFrame based on the threshold given for the values in the list in Scala Spark

我有一个数据框，其中有一列“等级”，其中包含具有 2 个字段的等级对象列表：名称（字符串）和值（双精度）。如果列表中有一个名称为 HOME 且最小值为 20.0 的成绩，我想将 PASS 这个词添加到标签列表中。下面的例子：我一直没能找到合理的解决方案。到目前为止，我得到了这个：但是这段代 ...

根据第二个 DataFrame 的数据在 DataFrame 的列表中添加标签 - Add a tag to the list in the DataFrame based on the data from the second DataFrame

我有两个 DataFrame - 第一个包含列 model、cnd、age、tags（这是一个可重复的字段 - 字符串列表/数组）、min、max，第二个包含 main_model 列。如果来自此 DataFrame 的model 字段值与来自 DataFrame 的任何 model 与主要型号一 ...

将一种类型的 spark scala 数据集转换为另一种类型 - Convert spark scala dataset of one type to another

我有一个具有以下案例 class 类型的数据集：我想将其转换为：使用解析器 function：我是 scala 和火花的新手。谁能告诉我如何做到这一点？ ...

pyspark 中来自相同 dataframe 的两列的不等式测试 - inequality test of two columns from same dataframe in pyspark

在 scala spark 中，如果 A 列值不等于 B 列或 dataframe 与df.filter(col("A")=!=col("B"))相同，我们可以进行过滤我们如何在 Pyspark 中执行同样的操作？我尝试了df.filter(~(df["A"] == df["B"]))和!=运算 ...

Scala Map 中值的长度 - Length of values in a Scala Map

我有一个简单的 map 如下我想验证特定键的长度，并希望将值作为字符串返回（而不是作为Option 。我尝试了以下这很好用。但显然，不处理 null 数据也有办法处理 null 吗？期望值是 null 的长度应该返回零（可能用空格或其他东西替换 null） ...

spark-submit 在 macOS 上使用 fatjar 加载 class 时出错 - spark-submit error loading class with fatjar on macOS

我正在尝试运行一个简单的 hello world spark 应用程序这是我的代码这是我的 build.gradle 这是项目结构我的火花提交脚本是 scala 和 spark 都安装在我的 mac 上当我在 spark-submit 上面运行时，它无法显示 **Error: Failed ...

Spark 如何在 Broadcast Join 中广播数据 - How Spark broadcast the data in Broadcast Join

当我们使用带提示的广播连接时 Spark 如何广播数据 - 正如我在使用广播提示时看到的那样：它调用这个 function 它在内部调用数据集的应用方法并使用 ResolvedHint 设置 logicalPlan 但是这之后是什么。这实际上是如何工作的，为此编写的代码在哪里。如果我们有多个小数 ...

如何使用 Scala Spark 在 AWS Glue 作业中设置 Spark Config？ - How to set Spark Config in an AWS Glue job, using Scala Spark?

运行我的工作时，出现以下异常：用户 Class 中的异常：org.apache.spark.SparkException：作业因阶段失败而中止：阶段 2.0 中的任务 32 失败 4 次，最近的失败：阶段 2.0 中的任务 32.3 丢失（TID 50）（10.100.1.48 执行者 8） : ...

如何在火花 sql 中将“2022 年 7 月 24 日”转换为“2022-07-24” - How to convert 'Jul 24 2022' to '2022-07-24' in spark sql

我想将字符串日期列转换为日期或时间戳 (YYYY-MM-DD)。我该如何在 scala Spark Sql 中做到这一点？输入： D1 2022 年 4 月 24 日| 2021 年 7 月 8 日| 2022 年 1 月 16 日| 预计：D2 2022-04-24| 2021- ...

需要在火花中为所有人添加引号 - Need to add quotes for all in spark

需要在 spark dataframe 中添加所有引号输入：val someDF = Seq( | ("user1", "math","algebra-1","90"), | ("user1", "physics","gravity","70") | ).toDF （“用户 ID”、“课程 ID”、 ...

无法在 pySpark 流式传输中使用通配符流式传输子文件夹中的文件 - Cannot stream files in subfolders with wildcards in pySpark streaming

此代码仅在我制作directory="s3://bucket/folder/2022/10/18/4/*"时才有效在文档中它说它支持 POSIX glob 模式。任何帮助表示赞赏。谢谢 ...

Spark合并两列，它们是具有重叠字段的不同结构的数组 - Spark merge two columns that are arrays of different structs with overlapping field

我有一个在使用 Scala Spark（或 PySpark）时无法解决的问题。我们如何合并两个字段，它们是不同字段的结构数组。例如，如果我有这样的架构：我可以使用 UDF 创建以下模式的 df：当 a,b,c 不为空时，x,y,z 为空，反之亦然，但是当 x,y,z 为空时，Q 将 ...

在 spylon 内核上的 spark 中安装外部包 - Installing external packages in spark on spylon kernel

我正在寻找一种在 spylon 内核上安装外部软件包的方法。我已经尝试在 spylon 中使用 --package 命令初始化 spark-shell，但它只是创建了另一个实例。我尝试了 %%init_spark 和 launcher.packages，但也没有用。无论如何要安装外部包，例如从 ...

如何将文件从一个 S3 存储桶目录移动到同一存储桶中的另一个目录？斯卡拉/Java - How to move files from one S3 bucket directory to another directory in same bucket? Scala/Java

我想使用 scala 将我的 s3 存储桶中一个目录下的所有文件移动到同一存储桶中的另一个目录。这是我所拥有的：我收到此错误： fs.copyFromLocalFile returns Wrong FS: s3a:// expected file:/// ...

Spark RDD 中的 CSV 逗号分隔符拆分，但不使用双引号拆分 coma - CSV Coma Delimiter Split in Spark RDD but NOT to split coma with in double quotes

我有一个 CSV 文件，其中的数据如下 ID，名称，comp_name 1,raj,"rajeswari,马达" 2、湿婆、琥珀王我的要求是读取此文件以触发 RDD，然后使用逗号分隔符进行映射拆分。但是给代码这会拆分所有昏迷 val splitdata = data.map(_.spl ...

memory createOrReplaceView or saveAsTable 哪个方法更高效 - Which method is more memory efficient createOrReplaceView or saveAsTable

我有一个来自 hive 表的 dataframe 我正在对其进行一些更改，然后在 hive 中再次将其保存为新表我应该使用哪种方法？假设这个 dataframe 有 7000 万条记录，我想让保存过程 memory 和时间高效。例如。 Dataframe 姓名 = df df.createOr ...