![](/img/trans.png)
[英]Spark RDD.map use within a spark dataframe withColumn method
[英]Spark - How to handle error case in RDD.map() method correctly?
我正在嘗試使用Spark RDD進行一些文本處理。
輸入文件的格式為:
2015-05-20T18:30 <some_url>/?<key1>=<value1>&<key2>=<value2>&...&<keyn>=<valuen>
我想從文本中提取一些字段並將其轉換為CSV格式,例如:
<value1>,<value5>,<valuek>,<valuen>
以下代碼是我如何執行此操作:
val lines = sc.textFile(s"s3n://${MY_BUCKET}/${MY_FOLDER}/test/*.gz")
val records = lines.map { line =>
val mp = line.split("&")
.map(_.split("="))
.filter(_.length >= 2)
.map(t => (t(0), t(1))).toMap
(mp.get("key1"), mp.get("key5"), mp.get("keyk"), mp.get("keyn"))
}
我想知道,如果輸入文本的某些行格式錯誤或無效,則map()
函數將無法返回有效值。 這在文本處理中應該很常見,解決此問題的最佳實踐是什么?
為了管理此錯誤,您可以在代碼的flatMap操作中使用scala的類Try:
val lines = sc.textFile(s"s3n://${MY_BUCKET}/${MY_FOLDER}/test/*.gz")
val records = lines.flatMap (line =>
Try{
val mp = line.split("&")
.map(_.split("="))
.filter(_.length >= 2)
.map(t => (t(0), t(1))).toMap
(mp.get("key1"), mp.get("key5"), mp.get("keyk"), mp.get("keyn"))
} match {
case Success(map) => Seq(map)
case _ => Seq()
})
有了這個,您只有“好人”,但是如果您同時想要(錯誤和好人),我建議在代碼中使用返回Scala Either的map函數,然后使用Spark過濾器:
val lines = sc.textFile(s"s3n://${MY_BUCKET}/${MY_FOLDER}/test/*.gz")
val goodBadRecords = lines.map (line =>
Try{
val mp = line.split("&")
.map(_.split("="))
.filter(_.length >= 2)
.map(t => (t(0), t(1))).toMap
(mp.get("key1"), mp.get("key5"), mp.get("keyk"), mp.get("keyn"))
} match {
case Success(map) => Right(map)
case Failure(e) => Left(e)
})
val records = goodBadRecords.filter(_.isRight)
val errors = goodBadRecords.filter(_.isLeft)
我希望這會有用
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.