如何使用Spark和JavaRDD检索特定行？

Question

我使用下面的代码从文本文件中检索数据。 检索数据使用特定关键字（错误）。

        JavaRDD<Row> rowRDD = input.map(RowFactory::create);
        List<StructField> fields = Arrays.asList(
          DataTypes.createStructField("error_msg", DataTypes.StringType, true));
        StructType schema = DataTypes.createStructType(fields);

        DataFrame df = sqlContext.createDataFrame(rowRDD, schema);

        Column column = new Column("error_msg");

        DataFrame errors = df.filter(column.like("%Error%"));
        System.out.println(errors.showString(1));

执行上面的代码后，输出如下

+--------------------+
|           error_msg|
+--------------------+
|java.lang.OutOfMe...|
+--------------------+

我想删除所有那些'+'和' - '标记，只获取消息行（java.lang.OutOfMe ...）。 而且输出中也没有显示整行。 是否有任何方法或解决方法可以解决此问题。 任何帮助都可以非常感激。

Answer 1

使用errors.first() ，可以获取整个标识的行并按照您的方式将其拆分。

如何使用Spark和JavaRDD检索特定行？

问题描述

1 个解决方案

解决方案1
0 2017-05-13 17:48:14

如何使用Spark和JavaRDD检索特定行？

问题描述

1 个解决方案

解决方案1 0 2017-05-13 17:48:14

解决方案1
0 2017-05-13 17:48:14