繁体   English   中英

如何在Java中的Spark Streaming中解析复杂的JSON数据

[英]How to parse complex JSON Data in spark streaming in Java

我们正在开发物联网应用

我们从要对其进行分析的每个设备中获取以下数据流,

[{"t":1481368346000,"sensors":[{"s":"s1","d":"+149.625"},{"s":"s2","d":"+23.062"},{"s":"s3","d":"+16.375"},{"s":"s4","d":"+235.937"},{"s":"s5","d":"+271.437"},{"s":"s6","d":"+265.937"},{"s":"s7","d":"+295.562"},{"s":"s8","d":"+301.687"}]}]

在初级,我能够使用spark java代码获取架构,如下所示:

    root
     |-- sensors: array (nullable = true)
     |    |-- element: struct (containsNull = true)
     |    |    |-- d: string (nullable = true)
     |    |    |-- s: string (nullable = true)
     |-- t: long (nullable = true)

我写的代码是

    JavaDStream<String> json = directKafkaStream.map(new Function<Tuple2<String,String>, String>() {
        public String call(Tuple2<String,String> message) throws Exception {
            return message._2();
        };
    });

    SQLContext sqlContext = spark.sqlContext();
    json.foreachRDD(new VoidFunction<JavaRDD<String>>() {
        @Override
        public void call(JavaRDD<String> jsonRecord) throws Exception {

            Dataset<Row> row = sqlContext.read().json(jsonRecord).toDF();
            row.createOrReplaceTempView("MyTable");
            row.printSchema();
            row.show();

            Dataset<Row> sensors = row.select("sensors");
            sensors.createOrReplaceTempView("sensors");
            sensors.printSchema();
            sensors.show();

        }
    });

这给了我一个错误,因为“ org.apache.spark.sql.AnalysisException:在给定的输入列:[];下无法解析' sensors '”

我是Spark和Analytics(分析)的初学者,无法在Java中找到任何解析嵌套json的好示例。

我想要达到的目标是,可能需要这里专家的建议,

我将提取每个传感器值,然后使用spark的sparkML库运行回归分析。 这将有助于我找出每个传感器流中正在发生的趋势,以及我想使用该数据来检测故障。

我不确定哪种方法应该是最好的方法,任何指导,链接和信息都将真正有用。

这是json.foreachRDD样子。

json.foreachRDD(new VoidFunction<JavaRDD<String>>() {
        @Override
        public void call(JavaRDD<String> rdd) {
            if(!rdd.isEmpty()){
                Dataset<Row> data = spark.read().json(rdd).select("sensors");
                data.printSchema();
                data.show(false);
                //DF in table
                Dataset<Row> df = data.select( org.apache.spark.sql.functions.explode(org.apache.spark.sql.functions.col("sensors"))).toDF("sensors").select("sensors.s","sensors.d");
                df.show(false);
            }
        }
    });

对于回归分析示例,您可以在以下网址引用JavaRandomForestRegressorExample.java

对于使用Spark机器学习和Spark Streaming进行实时数据分析,您可以参考以下文章。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM