[英]Spark - How to word count without RDD
看起來 RDD 將從 Spark 中刪除。
公告:基於 DataFrame 的 API 是主要的 API
基於RDD的API有望在Spark 3.0中移除
那么,如何在Spark中實現字數統計這樣的程序呢?
您使用 RDD api 作為元組操作的數據可以被認為和使用 SQL 類似方式使用 DataFrame api 作為列/字段進行操作。
df.withColumn("word", explode(split(col("lines"), " ")))
.groupBy("word")
.count()
.orderBy(col("count").desc())
.show()
+---------+-----+
| word|count|
+---------+-----+
| foo| 5|
| bar| 2|
| toto| 1|
...
+---------+-----+
筆記:
org.apache.spark.sql.functions
進行必要的導入
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.