簡體   English   中英

Spark - 如何在沒有 RDD 的情況下進行字數統計

[英]Spark - How to word count without RDD

看起來 RDD 將從 Spark 中刪除。

公告:基於 DataFrame 的 API 是主要的 API

基於RDD的API有望在Spark 3.0中移除

那么,如何在Spark中實現字數統計這樣的程序呢?

您使用 RDD api 作為元組操作的數據可以被認為和使用 SQL 類似方式使用 DataFrame api 作為列/字段進行操作。

df.withColumn("word", explode(split(col("lines"), " ")))
  .groupBy("word")
  .count()
  .orderBy(col("count").desc())
  .show()
+---------+-----+
|     word|count|
+---------+-----+
|      foo|    5|
|      bar|    2|
|     toto|    1|
...
+---------+-----+

筆記:

  • 此代碼片段需要從org.apache.spark.sql.functions進行必要的導入
  • 可以在這個問題的答案中找到相關示例。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM