繁体 English 中英

将 RDD 值随机替换为 null 与 scala spark

[英]Replace randomly RDD values to null with scala spark

原文 2020-08-14 10:41:33 7 2 scala/ csv/ apache-spark/ null/ rdd

我有一个包含近 15000 条记录的 csv 文件。 每行包含 3 种类型的数据，由制表符 (\t) 分隔。 我实际上想将第二列值随机替换为 null。 也许我会保持 8000 不变并将 7000 值替换为 null。

scala（火花）有什么帮助吗？

这是它的样子：

2 个解决方案

读取数据为 dataframe
生成一个新列rnd ，它是一个从 0 到 1 的随机数
当rnd < 0.5 时使 col2 = col2 （如果你想让 50% 的值为空）否则 null

import org.apache.spark.sql.functions.{lit, rand, when}
import spark.implicits._

spark.read.option("header", "true").option("sep", "\t").csv(<your_path>)
.withColumn("rnd", rand())
.withColumn("col2", when($"rnd" < 0.5, $"col2").otherwise(lit(null).cast(<col2_datatype_here>)))

@amelie，请注意我的答案中“rnd”前面的$条件。

您应该进行列比较，而不是值比较。

PS ：由于我是stackoverflow新手，无法发表评论，因此需要单独回答。

Spark＆Scala - 无法从RDD过滤空值

[英]Spark & Scala - Cannot Filter null Values from RDD

Spark - scala：随机将RDD /拆分RDD分成两个随机部分

[英]Spark - scala: shuffle RDD / split RDD into two random parts randomly

Spark Scala如何在RDD中使用替换功能

[英]Spark Scala How to use replace function in RDD

Spark Scala：将数据帧向量转换为RDD

[英]Spark Scala: Vector Dataframe to RDD of values

如何按RDD值分组Scala，Spark

[英]How to group by RDD values Scala, Spark

Scala中的Apache Spark无法打印rdd值

[英]Apache Spark in Scala not printing rdd values

使用Scala以优化方式将Spark数据帧的Not null值替换为“ 1”

[英]Replace Not null values of Spark dataframe as “1” using Scala in optimized way

Spark数据帧替换scala中不同数据类型的空值

[英]Spark dataframe replace null values for different data types in scala

如何在Spark Scala中将null NAN或Infinite值替换为默认值

[英]How to replace null NAN or Infinite values to default value in Spark Scala

Spark Scala：如何用数组或另一个数据帧中的值替换 null

[英]Spark Scala: How to replace null with values from an array or another dataframe

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Spark＆Scala - 无法从RDD过滤空值 Spark - scala：随机将RDD /拆分RDD分成两个随机部分 Spark Scala如何在RDD中使用替换功能 Spark Scala：将数据帧向量转换为RDD 如何按RDD值分组Scala，Spark Scala中的Apache Spark无法打印rdd值使用Scala以优化方式将Spark数据帧的Not null值替换为“ 1” Spark数据帧替换scala中不同数据类型的空值如何在Spark Scala中将null NAN或Infinite值替换为默认值 Spark Scala：如何用数组或另一个数据帧中的值替换 null

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM