繁体   English   中英

如何在Scala Spark中识别两个数组之间的交集?

[英]How to Identify the intersection between two Arrays in Scala Spark?

我有四个数组,其中包含来自四个数据帧的列名。

var col1 = df1.columns
var col2 = df2.columns
var col3 = df3.columns
var col4 = df4.columns

它们都是Array [String]。 现在的问题是确定在所有4个数组中普遍出现的那些列,而不是在所有4个数组中都不存在的那些列。 我猜一个人可以先考虑找到两个数组的交集,然后循环它。 有任何想法吗 ? 我们可以将其扩展到N维数组吗?

因此,这个想法不仅是识别两个阵列的交集,而且还识别多个阵列

您可以创建这些数组的列表,然后将reduceintersect函数配合使用:

List(col1, col2, col3, col4).reduce((a, b) => a intersect b)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM