獲取DataFrame行的字段的值-Spark Scala

Question

我有一個包含多個記錄的DataFrame，

我想迭代此DataFrame的每一行，以驗證其每一列的數據，並執行以下代碼：

val validDF = dfNextRows.map {
    x => ValidateRow(x)
}

def ValidateRow(row: Row) : Boolean =  {
    val nC = row.getString(0)
    val si = row.getString(1)
    val iD = row.getString(2)
    val iH = row.getString(3)
    val sF = row.getString(4)

    // Stuff to validate the data field of each row
    validateNC(nC)
    validateSI(SI)
    validateID(ID)
    validateIF(IF)
    validateSF(SF)
    true
}

但是，進行一些測試，如果我想打印val nC的值（以確保將正確的信息發送到每個函數），它不會給我帶來任何好處：

def ValidateRow(row: Row) : Boolean =  {
    val nC = row.getString(0)
    val si = row.getString(1)
    val iD = row.getString(2)
    val iH = row.getString(3)
    val sF = row.getString(4)

    println(nC)

    validateNC(nC)
    validateSI(SI)
    validateID(ID)
    validateIF(IF)
    validateSF(SF)
    true
}

我怎么知道我正在向每個函數發送正確的信息（我正在正確讀取行的每一列的數據）？

問候。

Answer 1

Spark數據框功能應為您提供一個良好的開端。

如果您的驗證函數足夠簡單（例如檢查空值），則可以將函數嵌入為

dfNextRows.withColumn("num_cta", when(col("num_cta").isNotNull, col("num_cta").otherwise(lit(0)) ))

您可以通過使用適當的spark數據框函數以相同的方式對其他列執行相同的操作

如果您的驗證規則很復雜，則可以將udf函數用作

def validateNC = udf((num_cta : Long)=> {
   //define your rules here
})

您可以調用udf使用功能withColumn作為

dfNextRows.withColumn("num_cta", validateNC(col("num_cta")))

您可以對其余的驗證規則執行此操作。

希望您的問題早日得到解決

Answer 2

map是一個轉換，您需要應用一個動作，例如可以執行dfNextRows.map(x => ValidaLinea(x)).first 。 Spark運行緩慢，很像標准集合中的Stream類。

獲取DataFrame行的字段的值-Spark Scala

問題描述

2 個解決方案

解決方案1
3 已采納 2017-06-21 02:39:01

解決方案2
2 2017-06-20 23:25:12

獲取DataFrame行的字段的值-Spark Scala

問題描述

2 個解決方案

解決方案1 3 已采納 2017-06-21 02:39:01

解決方案2 2 2017-06-20 23:25:12

解決方案1
3 已采納 2017-06-21 02:39:01

解決方案2
2 2017-06-20 23:25:12