我有如下输入 ID 尺寸 1个 4个 2个 2个 output - 如果输入为 4(大小列)拆分 4 次(1-4),如果输入大小列值为 2,则将其拆分 1-2 次。 ID 尺寸 1个 1个 1个 2个 1个 3个 1个 4个 2个 1个 2个 2个 ...
我有如下输入 ID 尺寸 1个 4个 2个 2个 output - 如果输入为 4(大小列)拆分 4 次(1-4),如果输入大小列值为 2,则将其拆分 1-2 次。 ID 尺寸 1个 1个 1个 2个 1个 3个 1个 4个 2个 1个 2个 2个 ...
我有一个数据框,其中有一列“等级”,其中包含具有 2 个字段的等级对象列表:名称(字符串)和值(双精度)。 如果列表中有一个名称为 HOME 且最小值为 20.0 的成绩,我想将 PASS 这个词添加到标签列表中。 下面的例子: 我一直没能找到合理的解决方案。 到目前为止,我得到了这个: 但是这段代 ...
我有两个 DataFrame - 第一个包含列 model、cnd、age、tags(这是一个可重复的字段 - 字符串列表/数组)、min、max,第二个包含 main_model 列。 如果来自此 DataFrame 的model 字段值与来自 DataFrame 的任何 model 与主要型号一 ...
我有一个具有以下案例 class 类型的数据集: 我想将其转换为: 使用解析器 function: 我是 scala 和火花的新手。 谁能告诉我如何做到这一点? ...
在 scala spark 中,如果 A 列值不等于 B 列或 dataframe 与df.filter(col("A")=!=col("B"))相同,我们可以进行过滤 我们如何在 Pyspark 中执行同样的操作? 我尝试了df.filter(~(df["A"] == df["B"]))和!=运算 ...
我有一个简单的 map 如下 我想验证特定键的长度,并希望将值作为字符串返回(而不是作为Option 。我尝试了以下 这很好用。 但显然,不处理 null 数据 也有办法处理 null 吗? 期望值是 null 的长度应该返回零(可能用空格或其他东西替换 null) ...
我正在尝试运行一个简单的 hello world spark 应用程序这是我的代码 这是我的 build.gradle 这是项目结构 我的火花提交脚本是 scala 和 spark 都安装在我的 mac 上 当我在 spark-submit 上面运行时,它无法显示 **Error: Failed ...
当我们使用带提示的广播连接时 Spark 如何广播数据 - 正如我在使用广播提示时看到的那样:它调用这个 function 它在内部调用数据集的应用方法并使用 ResolvedHint 设置 logicalPlan 但是这之后是什么。 这实际上是如何工作的,为此编写的代码在哪里。 如果我们有多个小数 ...
运行我的工作时,出现以下异常: 用户 Class 中的异常:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 2.0 中的任务 32 失败 4 次,最近的失败:阶段 2.0 中的任务 32.3 丢失(TID 50)(10.100.1.48 执行者 8) : ...
我想将字符串日期列转换为日期或时间戳 (YYYY-MM-DD)。 我该如何在 scala Spark Sql 中做到这一点? 输入: D1 2022 年 4 月 24 日| 2021 年 7 月 8 日| 2022 年 1 月 16 日| 预计:D2 2022-04-24| 2021- ...
需要在 spark dataframe 中添加所有引号输入:val someDF = Seq( | ("user1", "math","algebra-1","90"), | ("user1", "physics","gravity","70") | ).toDF (“用户 ID”、“课程 ID”、 ...
此代码仅在我制作directory="s3://bucket/folder/2022/10/18/4/*"时才有效 在文档中它说它支持 POSIX glob 模式。 任何帮助表示赞赏。 谢谢 ...
我有一个在使用 Scala Spark(或 PySpark)时无法解决的问题。 我们如何合并两个字段,它们是不同字段的结构数组。 例如,如果我有这样的架构: 我可以使用 UDF 创建以下模式的 df: 当 a,b,c 不为空时,x,y,z 为空,反之亦然,但是当 x,y,z 为空时,Q 将 ...
我正在寻找一种在 spylon 内核上安装外部软件包的方法。 我已经尝试在 spylon 中使用 --package 命令初始化 spark-shell,但它只是创建了另一个实例。 我尝试了 %%init_spark 和 launcher.packages,但也没有用。 无论如何要安装外部包,例如从 ...
我想使用 scala 将我的 s3 存储桶中一个目录下的所有文件移动到同一存储桶中的另一个目录。 这是我所拥有的: 我收到此错误: fs.copyFromLocalFile returns Wrong FS: s3a:// expected file:/// ...
我有一个 CSV 文件,其中的数据如下 ID,名称,comp_name 1,raj,"rajeswari,马达" 2、湿婆、琥珀王 我的要求是读取此文件以触发 RDD,然后使用逗号分隔符进行映射拆分。 但是给代码这会拆分所有昏迷 val splitdata = data.map(_.spl ...
我有一个来自 hive 表的 dataframe 我正在对其进行一些更改,然后在 hive 中再次将其保存为新表我应该使用哪种方法? 假设这个 dataframe 有 7000 万条记录,我想让保存过程 memory 和时间高效。 例如。 Dataframe 姓名 = df df.createOr ...