Scala按属性对元组排序列表

Question

我想知道一种简单的方法来按元组中的第一个字符串按字母顺序对List[(String, String)]排序，同时删除元组中第二个字符串的所有重复项。

感谢您的建议！

Answer 1

我们可以进行性能测试吗？

val items = List("a" -> 0, "b" -> 1, "c" -> 0, "d" -> 0, "e" -> 1)
items.groupBy(_._2).toList
     .sortBy(_._2.head._1)(new Ordering[String]() { 
         override def compare(x: String, y: String) = { -x.compareTo(y) } 
     })
     .map(e => (e._2.head._1 -> e._1))

结果：

List((b,1), (a,0))

Answer 2

出于好奇，评论中链接的答案仍然有效。

如果您已经有了TreeMap，则groupBy将构建TreeMap。 该行与idonnie的行相似，不同之处在于不必再次排序。

TreeMap(data: _*) groupBy (_._2) map (p => (p._2.head._1, p._1))

我不确定为什么它不能从成对的列表中构建TreeMap。 我在对抗感冒药的迷雾。 但是当人们发布这些问题时，这总是很有趣。

package object distinctby {
  import scala.collection.IterableLike
  import scala.collection.generic.CanBuildFrom
  import scala.collection.mutable.{ Set => MutSet }

  implicit class RichCollection[A, Repr](val xs: IterableLike[A, Repr]) extends AnyVal {
    def distinctBy[B, That](f: A => B)(implicit cbf: CanBuildFrom[Repr, A, That]) = {
      val builder = cbf(xs.repr)
      val i = xs.iterator
      val set = MutSet[B]()
      while (i.hasNext) {
        val o = i.next
        val b = f(o)
        if (!set(b)) {
          set += b
          builder += o
        }
      }
      builder.result
    }
  }
}

package distinctby {
  import scala.collection.generic.CanBuildFrom
  import scala.collection.immutable.TreeMap
  object Test extends App {
    val data = List("eins"->"one","un"->"one","zwei"->"two","deux"->"two")
    println(data)
    println(data distinctBy (_._2))
    println(TreeMap((data map (_.swap)): _*))
    println(TreeMap((data.reverse map (_.swap)): _*))
    // groupBy yields a TreeMap of TreeMap, so head is the lexly first
    println(TreeMap(data: _*) groupBy (_._2) map (p => (p._2.head._1, p._1)))
    locally {
      class CBF[A,B](implicit ord: Ordering[A]) 
        extends CanBuildFrom[List[(A, B)], (A,B), TreeMap[A,B]] {
        def apply(from: List[(A,B)]) = TreeMap.newBuilder[A, B](ord)
        def apply() = TreeMap.newBuilder[A, B]
      }
      implicit def cbf[A,B](implicit ord: Ordering[A]) = new CBF[A,B]
      println(data.distinctBy[String, TreeMap[String, String]](_._2)(cbf[String, String]).toSeq)
    }
  }
}

List((eins,one), (un,one), (zwei,two), (deux,two))
List((eins,one), (zwei,two))
Map(one -> un, two -> deux)
Map(one -> eins, two -> zwei)
Map(eins -> one, deux -> two)
ArrayBuffer((eins,one), (zwei,two))

Answer 3

我将只使用List的sorted方法对元组进行默认排序。 您还可以使用groupBy （ groupBy也指出）来获取每对第二个项目的不同值。 这是一个小例子：

scala> val tuples = scala.util.Random.shuffle("abcd".permutations.map{_.splitAt(2)}.toList) // generate some test data
tuples: List[(String, String)] = List((cb,ad), (dc,ab), (ba,dc), (bd,ca), (cb,da), (ca,db), (cd,ba), (cd,ab), (db,ca), (ba,cd), (ac,db), (ac,bd), (ab,cd), (ad,cb), (ca,bd), (bd,ac), (ad,bc), (db,ac), (da,bc), (da,cb), (bc,da), (dc,ba), (ab,dc), (bc,ad))

scala> tuples.sorted.groupBy(_._2).values.map(_.head).toList.sorted
res0: List[(String, String)] = List((ab,cd), (ab,dc), (ac,bd), (ac,db), (ad,bc), (ad,cb), (bc,ad), (bc,da), (bd,ac), (bd,ca), (cd,ab), (cd,ba))

对于我来说，您没有指定一种特定的方式来选择要保留哪些重复项，这有点奇怪……这应该保留第一个（按第一个字符串排序），这是我假设您要的。 如果您不在乎保留哪个，则可以消除对sorted的第一个调用。 如果将对sorted的第一个调用更改为sortBy(_._1) ，这也可能会稍微更有效，但是我对您的特定应用程序并不十分了解，是否知道这会带来什么真正的改变。

Scala按属性对元组排序列表

问题描述

3 个解决方案

解决方案1
8 已采纳 2012-12-03 01:00:52

解决方案2
1 2012-12-03 03:43:56

解决方案3
1 2012-12-03 04:18:17

Scala按属性对元组排序列表

问题描述

3 个解决方案

解决方案1 8 已采纳 2012-12-03 01:00:52

解决方案2 1 2012-12-03 03:43:56

解决方案3 1 2012-12-03 04:18:17

解决方案1
8 已采纳 2012-12-03 01:00:52

解决方案2
1 2012-12-03 03:43:56

解决方案3
1 2012-12-03 04:18:17