cost 293 ms
根据为 Scala Spark 中列表中的值给出的阈值,将标记添加到 DataFrame 中的列表 - Add a tag to the list in the DataFrame based on the threshold given for the values ​in the list in Scala Spark

我有一个数据框,其中有一列“等级”,其中包含具有 2 个字段的等级对象列表:名称(字符串)和值(双精度)。 如果列表中有一个名称为 HOME 且最小值为 20.0 的成绩,我想将 PASS 这个词添加到标签列表中。 下面的例子: 我一直没能找到合理的解决方案。 到目前为止,我得到了这个: 但是这段代 ...

根据第二个 DataFrame 的数据在 DataFrame 的列表中添加标签 - Add a tag to the list in the DataFrame based on the data from the second DataFrame

我有两个 DataFrame - 第一个包含列 model、cnd、age、tags(这是一个可重复的字段 - 字符串列表/数组)、min、max,第二个包含 main_model 列。 如果来自此 DataFrame 的model 字段值与来自 DataFrame 的任何 model 与主要型号一 ...

Scala Map 中值的长度 - Length of values in a Scala Map

我有一个简单的 map 如下 我想验证特定键的长度,并希望将值作为字符串返回(而不是作为Option 。我尝试了以下 这很好用。 但显然,不处理 null 数据 也有办法处理 null 吗? 期望值是 null 的长度应该返回零(可能用空格或其他东西替换 null) ...

Spark 如何在 Broadcast Join 中广播数据 - How Spark broadcast the data in Broadcast Join

当我们使用带提示的广播连接时 Spark 如何广播数据 - 正如我在使用广播提示时看到的那样:它调用这个 function 它在内部调用数据集的应用方法并使用 ResolvedHint 设置 logicalPlan 但是这之后是什么。 这实际上是如何工作的,为此编写的代码在哪里。 如果我们有多个小数 ...

如何使用 Scala Spark 在 AWS Glue 作业中设置 Spark Config? - How to set Spark Config in an AWS Glue job, using Scala Spark?

运行我的工作时,出现以下异常: 用户 Class 中的异常:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 2.0 中的任务 32 失败 4 次,最近的失败:阶段 2.0 中的任务 32.3 丢失(TID 50)(10.100.1.48 执行者 8) : ...

Spark合并两列,它们是具有重叠字段的不同结构的数组 - Spark merge two columns that are arrays of different structs with overlapping field

我有一个在使用 Scala Spark(或 PySpark)时无法解决的问题。 我们如何合并两个字段,它们是不同字段的结构数组。 例如,如果我有这样的架构: 我可以使用 UDF 创建以下模式的 df: 当 a,b,c 不为空时,x,y,z 为空,反之亦然,但是当 x,y,z 为空时,Q 将 ...

如何将文件从一个 S3 存储桶目录移动到同一存储桶中的另一个目录? 斯卡拉/Java - How to move files from one S3 bucket directory to another directory in same bucket? Scala/Java

我想使用 scala 将我的 s3 存储桶中一个目录下的所有文件移动到同一存储桶中的另一个目录。 这是我所拥有的: 我收到此错误: fs.copyFromLocalFile returns Wrong FS: s3a:// expected file:/// ...

Spark RDD 中的 CSV 逗号分隔符拆分,但不使用双引号拆分 coma - CSV Coma Delimiter Split in Spark RDD but NOT to split coma with in double quotes

我有一个 CSV 文件,其中的数据如下 ID,名称,comp_name 1,raj,"rajeswari,马达" 2、湿婆、琥珀王 我的要求是读取此文件以触发 RDD,然后使用逗号分隔符进行映射拆分。 但是给代码这会拆分所有昏迷 val splitdata = data.map(_.spl ...

memory createOrReplaceView or saveAsTable 哪个方法更高效 - Which method is more memory efficient createOrReplaceView or saveAsTable

我有一个来自 hive 表的 dataframe 我正在对其进行一些更改,然后在 hive 中再次将其保存为新表我应该使用哪种方法? 假设这个 dataframe 有 7000 万条记录,我想让保存过程 memory 和时间高效。 例如。 Dataframe 姓名 = df df.createOr ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM