簡體 English 中英

根據列數據類型過濾Spark數據幀

[英]Filter a spark dataframe based on column datatypes

原文 2018-04-23 10:29:14 0 2 apache-spark/ dataframe

我有一個帶有col_a和col_b的數據框，並且在收到的實木復合地板文件中都寫為“ String”。 col_b可以是int或字符串，我想過濾掉col_b不是int的所有行。

Input:
col_A   col_b
1       "abc"
2       "3"
3       "xyz"

Output:
col_a   col_b
2       3

我了解我需要打字，但不確定如何繼續進行

2 個解決方案

這里實際上不需要UDF。 您可以cast列強制轉換為int並且在失敗的任何地方都將返回null ，然后過濾非null行。

val df = Seq((1, "abc"),
             (2, "3"),
             (3, "xyz")).toDF("col_a", "col_b")

df.filter( $"col_b".cast("int").isNotNull ).show

//+-----+-----+
//|col_a|col_b|
//+-----+-----+
//|    2|    3|
//+-----+-----+

您可以對數據框使用filter操作來過濾非整數值。 創建UDF，將接受列值，並返回true如果該值可以被轉換為Int ，否則返回false 。

//your original DF
val df = Seq((1, "abc"),
  (2, "3"),
  (3, "xyz")).toDF("col_a", "col_b")

//create a udf for filter function
val isValueInt = udf((value: String) => Try(value.toInt).isSuccess)

//apply the filter on DF
df.filter(isValueInt($"col_b")).show(false)

//    output
//    +-----+-----+
//    |col_a|col_b|
//    +-----+-----+
//    |1    |3    | 
//    +-----+-----+

根據列的最大值過濾火花數據框

[英]filter spark dataframe based on maximum value of a column

基於 Spark dataframe 中字符串列中的 JSON 數據進行過濾

[英]Filter based on JSON data which is in a string column in a Spark dataframe

如何根據 map 的列值過濾火花 dataframe 條目

[英]How to filter spark dataframe entries based on a column value which is a map

基於列分區Spark DataFrame

[英]Partition Spark DataFrame based on column

根據列中特定值的計數條件過濾掉火花 dataframe 的行 [pyspark 中的 spark.sql 語法]

[英]filter out rows of a spark dataframe based on a count condition of specific value in a column [spark.sql syntax in pyspark]

根據時間戳列過濾數據幀

[英]Filter Dataframe based on Timestamp column

根據Apache Spark中數組中的單詞過濾DataFrame

[英]Filter DataFrame based on words in array in Apache Spark

如何基於文件的日期戳過濾Spark數據幀

[英]How to filter a Spark dataframe based on datestamp of the file

過濾器火花 dataframe 基於上月和上年

[英]Filter spark dataframe based on previous month and year

在基於 Spark Dataframe 的 API 中過濾多列

[英]Filter on multiple columns in Spark Dataframe based API

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 根據列的最大值過濾火花數據框基於 Spark dataframe 中字符串列中的 JSON 數據進行過濾如何根據 map 的列值過濾火花 dataframe 條目基於列分區Spark DataFrame 根據列中特定值的計數條件過濾掉火花 dataframe 的行 [pyspark 中的 spark.sql 語法] 根據時間戳列過濾數據幀根據Apache Spark中數組中的單詞過濾DataFrame 如何基於文件的日期戳過濾Spark數據幀過濾器火花 dataframe 基於上月和上年在基於 Spark Dataframe 的 API 中過濾多列

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM