Spark-如何正確處理RDD.map（）方法中的錯誤情況？

Question

我正在嘗試使用Spark RDD進行一些文本處理。

輸入文件的格式為：

2015-05-20T18:30 <some_url>/?<key1>=<value1>&<key2>=<value2>&...&<keyn>=<valuen>

我想從文本中提取一些字段並將其轉換為CSV格式，例如：

<value1>,<value5>,<valuek>,<valuen>

以下代碼是我如何執行此操作：

val lines = sc.textFile(s"s3n://${MY_BUCKET}/${MY_FOLDER}/test/*.gz")
val records = lines.map { line =>
    val mp = line.split("&")
                 .map(_.split("="))
                 .filter(_.length >= 2)
                 .map(t => (t(0), t(1))).toMap

    (mp.get("key1"), mp.get("key5"), mp.get("keyk"), mp.get("keyn"))
}

我想知道，如果輸入文本的某些行格式錯誤或無效，則map()函數將無法返回有效值。 這在文本處理中應該很常見，解決此問題的最佳實踐是什么？

Answer 1

為了管理此錯誤，您可以在代碼的flatMap操作中使用scala的類Try：

    val lines = sc.textFile(s"s3n://${MY_BUCKET}/${MY_FOLDER}/test/*.gz")
    val records = lines.flatMap (line =>
        Try{
          val mp = line.split("&")
              .map(_.split("="))
              .filter(_.length >= 2)
              .map(t => (t(0), t(1))).toMap

          (mp.get("key1"), mp.get("key5"), mp.get("keyk"), mp.get("keyn"))
      } match {
        case Success(map) => Seq(map)
        case _ => Seq()
    })

有了這個，您只有“好人”，但是如果您同時想要（錯誤和好人），我建議在代碼中使用返回Scala Either的map函數，然后使用Spark過濾器：

    val lines = sc.textFile(s"s3n://${MY_BUCKET}/${MY_FOLDER}/test/*.gz")
    val goodBadRecords = lines.map (line =>
        Try{
          val mp = line.split("&")
              .map(_.split("="))
              .filter(_.length >= 2)
              .map(t => (t(0), t(1))).toMap

          (mp.get("key1"), mp.get("key5"), mp.get("keyk"), mp.get("keyn"))
      } match {
        case Success(map) => Right(map)
        case Failure(e) => Left(e)
    })
    val records = goodBadRecords.filter(_.isRight)
    val errors = goodBadRecords.filter(_.isLeft)

我希望這會有用

Spark-如何正確處理RDD.map（）方法中的錯誤情況？

問題描述

1 個解決方案

解決方案1
9 已采納 2015-05-20 12:49:48

Spark-如何正確處理RDD.map（）方法中的錯誤情況？

問題描述

1 個解決方案

解決方案1 9 已采納 2015-05-20 12:49:48

解決方案1
9 已采納 2015-05-20 12:49:48