Scala和Spark中的“ zip”方法是什么？

Question

在Scala，Spark和許多其他“大數據”類型的框架，語言，庫中，我看到的方法名為“ zip* ”。 例如，在Scala中， List類型具有固有的zipWithIndex方法，您可以像這樣使用：

val listOfNames : List[String] = getSomehow()
for((name,i) <- listOfNames.zipWithIndex) {
  println(s"Names #${i+1}: ${name}")
}

同樣，Spark具有RDD方法，例如zip ， zipPartitions等。

但是方法名稱“ zip”完全讓我失望。 這是計算還是離散數學的概念？ 所有這些名稱中帶有“ zip ”的方法的動機是什么？

Answer 1

它們之所以稱為zip，是因為您要像拉鏈一樣壓縮兩個數據集。

要對其進行可視化，請獲取兩個數據集：

x = [1,2,3,4,5,6]
y = [a,b,c,d,e,f]

然后將它們拉在一起

當您向下移動數據集時，我把額外的間距只是給了拉鏈幻覺:)