[英]How to Identify the intersection between two Arrays in Scala Spark?
我有四个数组,其中包含来自四个数据帧的列名。
var col1 = df1.columns
var col2 = df2.columns
var col3 = df3.columns
var col4 = df4.columns
它们都是Array [String]。 现在的问题是确定在所有4个数组中普遍出现的那些列,而不是在所有4个数组中都不存在的那些列。 我猜一个人可以先考虑找到两个数组的交集,然后循环它。 有任何想法吗 ? 我们可以将其扩展到N维数组吗?
因此,这个想法不仅是识别两个阵列的交集,而且还识别多个阵列
您可以创建这些数组的列表,然后将reduce
与intersect
函数配合使用:
List(col1, col2, col3, col4).reduce((a, b) => a intersect b)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.