簡體   English   中英

使用Apache Spark遍歷字符串

[英]Using apache spark to iterate over string

例如,我們有字符串“ abcdabcd”

我們要計算字符串中所有可用的對(例如:“ ab”或“ da”)。

那么我們如何在Apache Spark中做到這一點呢?

我問這是因為RDD似乎不支持滑動功能:

rdd.sliding(2).toList
//Count number of pairs in list
//Returns syntax error on first line (sliding)

顯然,它支持通過mllib sliding ,如這里的 zero323所示。

import org.apache.spark.mllib.rdd.RDDFunctions._

val str = "abcdabcd"

val rdd = sc.parallelize(str)

rdd.sliding(2).map(_.mkString).toLocalIterator.forEach(println)

將會呈現

b
公元前
光盤
DA
b
公元前
光盤

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM