簡體   English   中英

如何在帶有Spark 2.1的Java中使用lambda flatMap()

[英]How to use lambda flatMap() in Java with Spark 2.1

我將Python應用程序移植到Java,並停留在實現Lambda flatMap()的正確方法上。 我正在解析IP日志,需要在''(空格)上分割。

我的環境:

  • 火花VRS 2.1
  • IntelliJ
  • Java 8
  • 傑克1.92

我所擁有的是:

加載數據框:

Dataset<Row> MyLog = spark.sql("Select RecordNumber, IpAddress from Table);
MyLog.createOrReplaceTempView("MyLog");

現在嘗試lambda flatmap()

Dataset<String> Mylog2 = Mylog.flatMap(e -> String.asList(e.split(' ')));

我嘗試了幾種方法來包括:

Dataset<Row> Mylog2 = Mylog.flatMap(e -> Array.asList(e.split(' ')));
Dataset<String> Mylog2 = Mylog.flatMap(lambda(e -> String.asList(e.split(' '))));

等等

原始的python看起來像這樣:

Mylog2 = Mylog.rdd.flatMap(lambda(x,y): ((x,v) for v in y.split(' ')))

我將對使用Spark在Java中實現此正確方法的任何見解表示贊賞

謝謝

關於什么:

Dataset<String> Mylog2 = Mylog.flatMap(row -> java.util.Arrays.stream(row.getString(1).split(' ')).iterator(), Encoders.STRING());

但是您要拆分哪一列? 在IpAddress上?

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM