繁体 English 中英

Spark Java：在数据集 1 中而不是在数据集 2 中查找数据

[英]Spark Java: find data in Dataset 1 not in Dataset 2

原文 2018-08-20 19:58:54 3 1 java/ apache-spark/ apache-spark-sql/ dataset

我有 2 个数据集 - ds1 有 40 列，ds2 有 10 列。 它们都有共同的 id 列。 如何使用 ds1 但不在 ds2 中的数据构建新数据集？

1 个解决方案

执行左外连接。 你可以做这样的事情（我假设源数据为 csv 格式）

Dataset<Row> DS1 = spark.read().option("header",true).csv("path of the File");
Dataset<Row> DS2 = spark.read().option("header",true).csv("path of the File");
ArrayList<String> joinColList = new ArrayList<String>();
joinColList.add("CommonId");
Dataset<Row> joinedData = DS1.join(DS2,scala.collection.JavaConversions.asScalaBuffer(joinColList),"leftouter");
joinedData.show();

通过在 Apache Spark Java 中搜索数据集的列标题来查找列索引

[英]Find column index by searching column header of a Dataset in Apache Spark Java

Spark Java API中的数据集操作

[英]Dataset Manipulation in Spark Java API

Spark Dataframe 到 Java 类的数据集

[英]Spark Dataframe to Dataset of Java class

Spark2 Java Dataset Sql

[英]Spark2 Java Dataset Sql

使用 java 加入 spark 数据集

[英]Join spark dataset using java

Spark Java API，数据集操作？

[英]Spark Java API, Dataset Manipulation?

在 Java Spark 中将 RDD 转换为数据集

[英]convert RDD to Dataset in Java Spark

无法从Java Dataset for Spark中的AWS S3读取数据

[英]Unable to read data from AWS S3 in Java Dataset for Spark

Spark Streaming 转换数据集<row>到数据集<customobject>在 java</customobject></row>

[英]Spark Streaming Convert Dataset<Row> to Dataset<CustomObject> in java

如何从字符串列表数据集创建字符串数据集 Spark Java

[英]How to create a Dataset of String from a Dataset of List of String Spark Java

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 通过在 Apache Spark Java 中搜索数据集的列标题来查找列索引 Spark Java API中的数据集操作 Spark Dataframe 到 Java 类的数据集 Spark2 Java Dataset Sql 使用 java 加入 spark 数据集 Spark Java API，数据集操作？在 Java Spark 中将 RDD 转换为数据集无法从Java Dataset for Spark中的AWS S3读取数据 Spark Streaming 转换数据集<row>到数据集<customobject>在 java</customobject></row> 如何从字符串列表数据集创建字符串数据集 Spark Java

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM