Scala java.lang.NullPointerException

Question

以下代碼導致java.lang.NullPointerException。

val sqlContext = new SQLContext(sc)
val dataFramePerson = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").schema(CustomSchema1).load("c:\\temp\\test.csv")
val dataFrameAddress = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").schema(CustomSchema2).load("c:\\temp\\test2.csv")

val personData = dataFramePerson.map(data => {
  val addressData = dataFrameAddress.filter(i => i.getAs("ID") == data.getAs("ID"));
  var address:Address = null;
  if (addressData != null) {
    val addressRow = addressData.first;
    address = addressRow.asInstanceOf[Address];
  }
  Person(data.getAs("Name"),data.getAs("Phone"),address)
})

我將其范圍縮小到引起異常的以下行。

val addressData = dataFrameAddress.filter(i => i.getAs("ID") == data.getAs("ID"));

有人可以指出問題所在嗎？

Answer 1

您的代碼具有很大的結構缺陷，也就是說，您只能引用驅動程序中執行的代碼中的數據幀，而不能引用執行程序所運行的代碼中的數據幀。 您的代碼包含對映射中另一個數據框的引用，該引用在執行程序中執行。 查看此鏈接是否可以在常規Spark映射操作中使用Spark DataFrame？

val personData = dataFramePerson.map(data => { // WITHIN A MAP
  val addressData = dataFrameAddress.filter(i => // <--- REFERRING TO OTHER DATAFRAME WITHIN A MAP
          i.getAs("ID") == data.getAs("ID"));  
  var address:Address = null;
  if (addressData != null) {

您要執行的操作是左外部聯接，然后進行進一步處理。

dataFramePerson.join(dataFrameAddress, Seq("ID"), "left_outer")

還請注意，與使用getAs時要指定類型一樣，例如getAs[String]("ID")

Answer 2

唯一可以說的是dataFrameAddress或i ，或者data為null 。 使用您最喜歡的調試技術來了解實際上是哪種，例如調試器，打印語句或日志。

請注意，如果在NullPointerException的stacktrace中看到filter調用，則意味着只有i或data可以為null 。 另一方面，如果您沒有看到filter調用，則表示它是dataFrameAddress ，它為null 。

Scala java.lang.NullPointerException

問題描述

2 個解決方案

解決方案1
3 已采納 2017-11-01 05:26:15

解決方案2
0 2017-11-01 04:58:49

Scala java.lang.NullPointerException

問題描述

2 個解決方案

解決方案1 3 已采納 2017-11-01 05:26:15

解決方案2 0 2017-11-01 04:58:49

解決方案1
3 已采納 2017-11-01 05:26:15

解決方案2
0 2017-11-01 04:58:49