Scala Spark按子串索引排序RDD

Question

我是Scala Spark的新手，我有一個問題。

我有包含1.2億字符串的RDD，我正在嘗試查找包含子字符串的所有字符串。 我做得很好。

現在我想按索引對輸出進行排序，以便找到子字符串更接近start的字符串。

例如：

子字符串： abcdefg

字符串：

s1 = tryu abcdefg yui

s2 = tr abcdefg yui

s3 = abcdefg yuo

所以我想要的輸出應該是一個排序的列表\\ rdd {s3，s2，s1}

這樣做的最佳方法是什么？

Answer 1

我們的想法是將RDD[String]為RDD[(String,Index)] ，其中使用Java的String indexOf計算索引。

// Dataset
val r = sc.makeRDD(Seq("abf", "ffff", "aaaaaabf", "ttggabf"))

// Sorting on index of substring "bf", only for those strings that contain "bf"
val sorted = r.map(s => (s, s.indexOf("bf"))).filter(_._2>0).sortBy(_._2)

Scala Spark按子串索引排序RDD

問題描述

1 個解決方案

解決方案1
4 已采納 2016-07-05 18:02:45

Scala Spark按子串索引排序RDD

問題描述

1 個解決方案

解決方案1 4 已采納 2016-07-05 18:02:45

解決方案1
4 已采納 2016-07-05 18:02:45