[英]Datatype validation of Spark columns in for loop - Spark DataFrame
我试图在进入循环之前验证DataFrame的数据类型,在其中尝试进行SQL计算,但是数据类型验证没有通过,也没有进入循环内部。 该操作仅需要在数字列上执行。
如何解决呢? 这是处理数据类型验证的正确方法吗?
//get datatype of dataframe fields
val datatypes = parquetRDD_subset.schema.fields
//check if datatype of column is String and enter the loop for calculations.
for (val_datatype <- datatypes if val_datatype.dataType =="StringType")
{
val dfs = x.map(field => spark.sql(s"select * from table"))
val withSum = dfs.reduce((x, y) => x.union(y)).distinct()
}
您正在将dataType与永远不会为真的字符串进行比较(对我而言,编译器抱怨它们不相关)。 dataType是一个对象,它是org.apache.spark.sql.types.DataType的子类型。
尝试用替换您的
for (val_datatype <- datatypes if val_datatype.dataType.isInstanceOf[StringType])
无论如何,您的for循环只会声明val,而不会对其进行任何处理。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.