繁体   English   中英

for循环中Spark列的数据类型验证-Spark DataFrame

[英]Datatype validation of Spark columns in for loop - Spark DataFrame

我试图在进入循环之前验证DataFrame的数据类型,在其中尝试进行SQL计算,但是数据类型验证没有通过,也没有进入循环内部。 该操作仅需要在数字列上执行。

如何解决呢? 这是处理数据类型验证的正确方法吗?

//get datatype of dataframe fields
val datatypes =  parquetRDD_subset.schema.fields

//check if datatype of column is String and enter the loop for calculations.

for (val_datatype <- datatypes if val_datatype.dataType =="StringType") 
{
    val dfs = x.map(field => spark.sql(s"select * from table"))
    val withSum = dfs.reduce((x, y) => x.union(y)).distinct()
}

您正在将dataType与永远不会为真的字符串进行比较(对我而言,编译器抱怨它们不相关)。 dataType是一个对象,它是org.apache.spark.sql.types.DataType的子类型。

尝试用替换您的

for (val_datatype <- datatypes if val_datatype.dataType.isInstanceOf[StringType]) 

无论如何,您的for循环只会声明val,而不会对其进行任何处理。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM