如何在 Spark 中使用 scala 從 Rdd 過濾數據並將其保存到文本文件

Question

我有兩個 TSV 格式的數據集。 我想讀取 spark scala 中的兩個 TSV 文件並執行分析。 文件 1 有 8 月數據，文件 2 有 9 月數據。 如何在 spark 中使用 scala 讀取兩個 tsv 文件並將 output 保存到另一個 tsv 文件。 我想在兩個 RRD 上使用交集操作

下面是兩種 TSV 文件格式。 文件 1

文件 2

output 文件應該有兩個月份都可以訪問的 App_Name。

Output 文件數據。

Answer 1

val dfTsv1 = spark.read.format("com.databricks.spark.csv")
      .option("delimiter", "\t")
      .load("filepath1")
    val dfTsv2 = spark.read.format("com.databricks.spark.csv")
      .option("delimiter", "\t").load("filepath2")


    val duplicateColumns = List("") // put your duplicate column names here 
    val outputDf = dfTsv1.alias("tcv1").join(dfTsv2.alias("tcv2"),dfTsv1("ACCESSED_MONTH") === dfTsv1("ACCESSED_MONTH"))
      .drop(duplicateColumns: _*)

    outputDf.show()

Answer 2

交集只不過是內連接，只需對兩個 Dataframe 執行內連接操作即可。 參考Spark SQL 連接

val df = df1.join(df2, Seq("APP_NAME"), "inner")

如何在 Spark 中使用 scala 從 Rdd 過濾數據並將其保存到文本文件

問題描述

2 個解決方案

解決方案1
0 2020-04-27 16:32:29

解決方案2
0 2020-04-27 16:43:40

如何在 Spark 中使用 scala 從 Rdd 過濾數據並將其保存到文本文件

問題描述

2 個解決方案

解決方案1 0 2020-04-27 16:32:29

解決方案2 0 2020-04-27 16:43:40

解決方案1
0 2020-04-27 16:32:29

解決方案2
0 2020-04-27 16:43:40