scala如何參數化案例類，並將案例類變量傳遞給[T <：Product：TypeTag]

Question

// class definition of RsGoods schema
case class RsGoods(add_time: Int)

// my operation
originRDD.toDF[Schemas.RsGoods]()

// and the function definition
def toDF[T <: Product: TypeTag](): DataFrame = mongoSpark.toDF[T]()

現在我定義了太多的架構（RsGoods1，RsGoods2，RsGoods3），將來還會添加更多。

所以問題是如何將案例類作為變量傳遞以構造代碼

附加sbt依賴

  "org.apache.spark" % "spark-core_2.11" % "2.3.0",
  "org.apache.spark" %% "spark-sql" % "2.3.0",
  "org.mongodb.spark" %% "mongo-spark-connector" % "2.3.1",

附上關鍵代碼片段

  var originRDD = MongoSpark.load(sc, readConfig)
  val df = table match {
    case "rs_goods_multi" => originRDD.toDF[Schemas.RsGoodsMulti]()
    case "rs_goods" => originRDD.toDF[Schemas.RsGoods]()
    case "ma_item_price" => originRDD.toDF[Schemas.MaItemPrice]()
    case "ma_siteuid" => originRDD.toDF[Schemas.MaSiteuid]()
    case "pi_attribute" => originRDD.toDF[Schemas.PiAttribute]()
    case "pi_attribute_name" => originRDD.toDF[Schemas.PiAttributeName]()
    case "pi_attribute_value" => originRDD.toDF[Schemas.PiAttributeValue]()
    case "pi_attribute_value_name" => originRDD.toDF[Schemas.PiAttributeValueName]()

Answer 1

根據我對您的要求的了解，我認為跟隨應該是一個不錯的起點。

def readDataset[A: Encoder](
  spark: SparkSession,
  mongoUrl: String,
  collectionName: String,
  clazz: Class[A]
): Dataset[A] = {
  val config = ReadConfig(
    Map("uri" -> s"$mongoUrl.$collectionName")
  )

  val df = MongoSpark.load(spark, config)

  val fieldNames = clazz.getDeclaredFields.map(f => f.getName).dropRight(1).toList

  val dfWithMatchingFieldNames = df.toDf(fieldNames: _*)

  dfWithMatchingFieldNames.as[A]
}

你可以這樣使用

case class RsGoods(add_time: Int)

val spark: SparkSession = ...

import spark.implicts._

val rdGoodsDS = readDataset[RsGoods](
  spark,
  "mongodb://example.com/database",
  "rs_goods",
  classOf[RsGoods]
)

另外，以下兩行

val fieldNames = clazz.getDeclaredFields.map(f => f.getName).dropRight(1).toList

val dfWithMatchingFieldNames = df.toDf(fieldNames: _*)

僅因為正常情況下Spark讀取具有諸如value1, value2, ...類的列名稱的DataFrames才需要。 因此，我們想更改列名以匹配case class的列名。

我不確定這些“ defalut”列的名稱是什么，因為涉及到MongoSpark。

您首先應檢查按以下方式創建的df中的列名稱，

val config = ReadConfig(
  Map("uri" -> s"$mongoUrl.$collectionName")
)

val df = MongoSpark.load(spark, config)

如果MongoSpark解決了這些“默認”列名稱的問題並從您的集合中選擇了庫倫名稱，那么將不需要這兩行，並且您的方法將變成這樣，

def readDataset[A: Encoder](
  spark: SparkSession,
  mongoUrl: String,
  collectionName: String,
): Dataset[A] = {
  val config = ReadConfig(
    Map("uri" -> s"$mongoUrl.$collectionName")
  )

  val df = MongoSpark.load(spark, config)

  df.as[A]
}

和，

val rsGoodsDS = readDataset[RsGoods](
  spark,
  "mongodb://example.com/database",
  "rs_goods"
)

scala如何參數化案例類，並將案例類變量傳遞給[T <：Product：TypeTag]

問題描述

1 個解決方案

解決方案1
1 2018-12-14 09:42:45

scala如何參數化案例類，並將案例類變量傳遞給[T &lt;：Product：TypeTag]

問題描述

1 個解決方案

解決方案1 1 2018-12-14 09:42:45

scala如何參數化案例類，並將案例類變量傳遞給[T <：Product：TypeTag]

解決方案1
1 2018-12-14 09:42:45