繁体   English   中英

Scala-使用Spark将JSON文件作为单个字符串读取

[英]Scala - read JSON file as a single String with Spark

我有描述表结构的JSON文件。 我想读从S3每个文件以然后应用一个单独的字符串fromJson()的方法apache.spark.sql.types.DataType

DataType.fromJson(jsonString).asInstanceOf[StructType] 

但是现在我只设法将文件读入DataFrame中:

 val testJsonData = sqlContext.read.option("multiline", "true").json("/s3Bucket/metrics/metric1.json")

但是我不需要df.schema ,而是需要将JSON字符串的内容解析为StructType。

JSON文件的内容:

{
  "type" : "struct",
  "fields" : [ {
    "name" : "metric_name",
    "type" : "string",
    "nullable" : true,
    "metadata" : { }
  }, {
    "name" : "metric_time",
    "type" : "long",
    "nullable" : true,
    "metadata" : { }
  }, {
    "name" : "metric_value",
    "type" : "string",
    "nullable" : true,
    "metadata" : { }
  }]
}

看起来您要使用的是sc.wholeTextFiles (在这种情况下,sc是SparkContext )。

这将导致RDD[(String, String)] ,其中._1是文件名, ._2是整个文件内容。 也许您可以尝试:

val files = sc.wholeTextFiles("/s3Bucket/metrics/", 16).toDS()
files.map(DataType.fromJson(_._2).asInstanceOf[StructType])

从理论上讲,它将为您提供Dataset[StructType] 不幸的是,我没有在纯Spark sql API中找到类似的功能,但这可能有用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM