簡體 English 中英

Spark Java：在數據集 1 中而不是在數據集 2 中查找數據

[英]Spark Java: find data in Dataset 1 not in Dataset 2

原文 2018-08-20 19:58:54 3 1 java/ apache-spark/ apache-spark-sql/ dataset

我有 2 個數據集 - ds1 有 40 列，ds2 有 10 列。 它們都有共同的 id 列。 如何使用 ds1 但不在 ds2 中的數據構建新數據集？

1 個解決方案

執行左外連接。 你可以做這樣的事情（我假設源數據為 csv 格式）

Dataset<Row> DS1 = spark.read().option("header",true).csv("path of the File");
Dataset<Row> DS2 = spark.read().option("header",true).csv("path of the File");
ArrayList<String> joinColList = new ArrayList<String>();
joinColList.add("CommonId");
Dataset<Row> joinedData = DS1.join(DS2,scala.collection.JavaConversions.asScalaBuffer(joinColList),"leftouter");
joinedData.show();

通過在 Apache Spark Java 中搜索數據集的列標題來查找列索引

[英]Find column index by searching column header of a Dataset in Apache Spark Java

Spark Java API中的數據集操作

[英]Dataset Manipulation in Spark Java API

Spark Dataframe 到 Java 類的數據集

[英]Spark Dataframe to Dataset of Java class

Spark2 Java Dataset Sql

[英]Spark2 Java Dataset Sql

使用 java 加入 spark 數據集

[英]Join spark dataset using java

Spark Java API，數據集操作？

[英]Spark Java API, Dataset Manipulation?

在 Java Spark 中將 RDD 轉換為數據集

[英]convert RDD to Dataset in Java Spark

無法從Java Dataset for Spark中的AWS S3讀取數據

[英]Unable to read data from AWS S3 in Java Dataset for Spark

Spark Streaming 轉換數據集<row>到數據集<customobject>在 java</customobject></row>

[英]Spark Streaming Convert Dataset<Row> to Dataset<CustomObject> in java

如何從字符串列表數據集創建字符串數據集 Spark Java

[英]How to create a Dataset of String from a Dataset of List of String Spark Java

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 通過在 Apache Spark Java 中搜索數據集的列標題來查找列索引 Spark Java API中的數據集操作 Spark Dataframe 到 Java 類的數據集 Spark2 Java Dataset Sql 使用 java 加入 spark 數據集 Spark Java API，數據集操作？在 Java Spark 中將 RDD 轉換為數據集無法從Java Dataset for Spark中的AWS S3讀取數據 Spark Streaming 轉換數據集<row>到數據集<customobject>在 java</customobject></row> 如何從字符串列表數據集創建字符串數據集 Spark Java

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM