根据Apache Spark Scala中的列数据类型将数据框中的列选择为另一个数据框

Question

I have a spark dataframe 我有一个火花数据框

inputDF: org.apache.spark.sql.DataFrame = [_id: string, Frequency:              double, Monterary: double, Recency: double, CustID: string]
        root
     |-- _id: string (nullable = false)
     |-- Frequency: double (nullable = false)
     |-- Monterary: double (nullable = false)
     |-- Recency: double (nullable = false)
     |-- CustID: string (nullable = false)

I want to create a new dataframe by dropping string columns from this. 我想通过从中删除字符串列来创建一个新的数据框。 Specific condition is not to iterate over the column names . 具体条件是不要迭代列名。 Anyone has any idea ? 有人有什么主意吗？

Answer 1

If schema is flat and contains only simple types you can filter over fields but unless you have a crystal ball you cannot really avoid iteration: 如果模式是平面的并且仅包含简单类型，则可以过滤字段，但是除非您拥有水晶球，否则您不能真正避免迭代：

import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.functions.col

df.select(df.schema.fields.flatMap(f => f.dataType match {
  case StringType => Nil
  case _ => col(f.name) :: Nil
}): _*)

根据Apache Spark Scala中的列数据类型将数据框中的列选择为另一个数据框

问题描述

1 个解决方案

解决方案1
4 已采纳 2016-01-15 01:37:45

根据Apache Spark Scala中的列数据类型将数据框中的列选择为另一个数据框

问题描述

1 个解决方案

解决方案1 4 已采纳 2016-01-15 01:37:45

解决方案1
4 已采纳 2016-01-15 01:37:45