簡體 English 中英

如何使用非Lambda函數定義Spark RDD轉換

[英]How to define Spark RDD transformation with non-Lambda Function

原文 2017-03-03 13:29:35 1 1 java/ apache-spark/ lambda/ java-8/ scala-java-interop

我最近開始使用Spark和Java。 我目前正在嘗試RDD轉換和操作。 目前，我正在從包含某些DateTime字段的csv中讀取數據，然后應用過濾器以僅保留那些小於2天的行，最后檢查生成的RDD是否為空。 我寫了一個簡單的代碼片段，可以在最低限度上實現我想要的功能。

Function<List<String>, Boolean> filterPredicate = row -> new DateTime(row.get(1).isAfter(dtThreshold);

sc.textFile(inputFilePath)
            .map(text -> Arrays.asList(text.split(",")))
            .filter(filterPredicate)
            .isEmpty();

在這種簡單情況下，我假設DateTime對象始終位於第一列上。 我現在想擴展它以使用多個列索引。 但是要做到這一點，我需要能夠定義多於一行的謂詞函數。 這就是為什么我將謂詞函數定義與轉換代碼分開的原因。

我應該如何定義這樣的功能？

1 個解決方案

使用花括號符號...

   Function<List<String>, Boolean> filterPredicate = row -> {
        boolean isDateAfter = new DateTime(row.get(1)).isAfter(dtThreshold);
        boolean hasName = row.get(2) != "";
        return isDateAfter && hasName;
    }

供應商的Java函數接口<T>無法編譯非 lambda

[英]Java function interface for Supplier<T> failed to compile non-lambda

Apache Spark 最便宜的觸發 RDD 轉換的方法

[英]Apache Spark cheapest way to trigger a RDD transformation

spark-如何在另一個RDD轉換中查找（Java）PairRDD的鍵和值

[英]spark - how to look up the keys and values of a (Java)PairRDD inside another RDD's transformation

如何在Spark Java RDD操作中應用地圖功能

[英]How to apply map function on in spark java RDD Operations

如何向 Spark 中的現有 RDD 添加更多 RDD？

[英]How to add more RDD to existing RDD in Spark?

序列化Lucene StandardAnalyzer，用於Apache Spark RDD映射轉換

[英]Serialize Lucene StandardAnalyzer for Apache Spark RDD map transformation

在 Spark JavaRDD 轉換中使用 Serializable lambda

[英]Use Serializable lambda in Spark JavaRDD transformation

如何定義一個以Serializable lambda作為參數的函數

[英]How to define a function taking a Serializable lambda as parameter

如何在Spark中將RDD拆分成多個？

[英]How to split an RDD into many in Spark?

如何針對每個RDD Spark流

[英]How to For Each RDD Spark Streaming

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 供應商的Java函數接口<T>無法編譯非 lambda Apache Spark 最便宜的觸發 RDD 轉換的方法 spark-如何在另一個RDD轉換中查找（Java）PairRDD的鍵和值如何在Spark Java RDD操作中應用地圖功能如何向 Spark 中的現有 RDD 添加更多 RDD？序列化Lucene StandardAnalyzer，用於Apache Spark RDD映射轉換在 Spark JavaRDD 轉換中使用 Serializable lambda 如何定義一個以Serializable lambda作為參數的函數如何在Spark中將RDD拆分成多個？如何針對每個RDD Spark流

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM