如何使用線性回歸評估 Spark Pipeline 中模型的性能（准確度）

Question

嘗試使用線性回歸運行 Spark 管道，我能夠執行模型，並尋找

為了找到我需要模型摘要的模型效率和其他指標，我找到了一些 Python 示例，我在下面評論了這些示例以供參考。

       import org.apache.spark.ml.feature.VectorAssembler
       import spark.implicits._
       import org.apache.spark.sql
       import org.apache.spark.sql.functions._
       import org.apache.spark.sql.types.DecimalType
       import org.apache.spark.sql.{Dataset, Row, SparkSession}
       import org.apache.spark.ml.regression.LinearRegression
       import org.apache.spark.ml.feature.OneHotEncoderEstimator
       import org.apache.spark.ml.{Pipeline, PipelineModel}    

       val splitDF: Array[Dataset[Row]] = inputDF.randomSplit(Array(0.5, 0.5))
        val trainingDF = splitDF(0)
        val testingDF = splitDF(1) 


        val encoder = new OneHotEncoderEstimator()
          .setInputCols(Array("_LookUpID"))
          .setOutputCols(Array("_LookUpID_Encoded"))

        val requiredFeatures = Array("_LookUpID_Encoded","VALUE1")
        val assembler = new VectorAssembler()
          .setInputCols(requiredFeatures)
          .setOutputCol("features")


        val lr = new LinearRegression()
          .setMaxIter(10)
          .setRegParam(0.3)
          .setElasticNetParam(0.8)
          .setFeaturesCol("features")
          .setLabelCol("VALUE2")

        // Fit the model
        val pipeline = new Pipeline()
          .setStages(Array(encoder, assembler, lr))

        // Fit the pipeline to training documents.
        val lrModel = pipeline.fit(trainingDF)

        val predictions = lrModel.transform(testingDF)
        println("*** Predictions ***")
        predictions.printSchema()  

predictions.select("VALUE_DATE","_LookUpID","_CD","VALUE1","VALUE2","prediction").show(100)

        val rm = new RegressionMetrics(predictions.rdd.map(x => (x(4).asInstanceOf[Double], x(5).asInstanceOf[Double])))
        println("sqrt(MSE): " + Math.sqrt(rm.meanSquaredError))
        println("R Squared: " + rm.r2)
        println("Explained Variance: " + rm.explainedVariance + "\n")

使用分區攝取

def getDataFrame(sql: String, lowerNumber: Int, upperNumber: Int): DataFrame = {
 val inputDF: DataFrame = 
 spark.read.format(source = "jdbc")
  .option("url", "jdbc:oracle:thin:@//url")
        .option("user", "user")
        .option("password", "password")
        .option("driver", "oracle.jdbc.OracleDriver")
        .option("dbtable", s"($sql)")
        .option("partitionColumn", "_LookUpID")
        .option("numPartitions", "6")
        .option("lowerBound", lowerNumber)
        .option("upperBound", upperNumber)
        .load()
 inputDF
}

如果我為數據集提供 100 萬行（在 100K 時工作正常），即使作業分配了 32GB 內存，以下管道會耗盡內存（java.lang.OutOfMemoryError：Java 堆空間...）。 嘗試 .cache() inputDF 沒有太大成功。 是不是因為對 _LookUpID 進行了編碼，我還能做些什么不同的更新：增加了驅動程序上的堆內存以及分區數並能夠解決它。

謝謝

Answer 1

使用 RegressionMetrics更新問題以獲取指標的 RMSE 和 R Squared 等

分區數據集並增加驅動程序的堆內存，暫時解決了內存問題。 會持續監控

如何使用線性回歸評估 Spark Pipeline 中模型的性能（准確度）

問題描述

1 個解決方案

解決方案1
0 已采納 2020-03-16 19:13:01

如何使用線性回歸評估 Spark Pipeline 中模型的性能（准確度）

問題描述

1 個解決方案

解決方案1 0 已采納 2020-03-16 19:13:01

解決方案1
0 已采納 2020-03-16 19:13:01