繁体 English 中英

在Scala中使用带有Spark的Regex过滤DataFrame

[英]filter DataFrame with Regex with Spark in Scala

原文 2015-11-27 21:24:13 2 1 regex/ scala/ apache-spark/ spark-dataframe

我想过滤掉Spark DataFrame中具有看起来像真实的电子邮件列的行，这是我尝试过的：

df.filter($"Email" match {case ".*@.*".r => true case _ => false})

但这不起作用。 做正确的方法是什么？

1 个解决方案

要扩展@ TomTom101的评论，您要查找的代码是：

df.filter($"Email" rlike ".*@.*")

match不起作用的主要原因是因为DataFrame有两个过滤函数，它们可以是String或Column。 这与RDD不同，它有一个过滤器，它将函数从T为布尔值。

基于 Regex 的 Map 替换 Spark Dataframe 中的字符串及其替换 + SCALA

[英]Replace String in Spark Dataframe based on Map of Regex with its replacements + SCALA

SQL 或 Spark (Scala) 中的正则表达式

[英]A regex in SQL or Spark (Scala)

在Scala中使用带有过滤器的正则表达式

[英]Using regex with filter in Scala

spark：scala - 正则表达式作为 udf 的参数

[英]spark: scala - regex as argument for udf

阅读非结构化文本文件后，如何在Spark Scala中使用正则表达式将RDD转换为Dataframe？

[英]How to use regex in Spark Scala to convert RDD to Dataframe after reading an unstructured text file?

使用正则表达式过滤 DataFrame 列

[英]Filter DataFrame columns with regex

熊猫数据帧过滤器正则表达式

[英]pandas DataFrame filter regex

Scala正则表达式过滤器包装的元素

[英]scala regex filter wrapped elements

Scala Spark计数正则表达式在文件中匹配

[英]Scala Spark count regex matches in a file

使用 Apache Spark Scala 的正则表达式 RDD

[英]Regex RDD using Apache Spark Scala

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 基于 Regex 的 Map 替换 Spark Dataframe 中的字符串及其替换 + SCALA SQL 或 Spark (Scala) 中的正则表达式在Scala中使用带有过滤器的正则表达式 spark：scala - 正则表达式作为 udf 的参数阅读非结构化文本文件后，如何在Spark Scala中使用正则表达式将RDD转换为Dataframe？使用正则表达式过滤 DataFrame 列熊猫数据帧过滤器正则表达式 Scala正则表达式过滤器包装的元素 Scala Spark计数正则表达式在文件中匹配使用 Apache Spark Scala 的正则表达式 RDD

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM