如何用spark python对CSV文件列求和

Question

我是 spark 新手，我有一些数据要处理，我想对 CSV 文件中的列的总数求和，即文件的标题：([colmun1],[colmun2],[colmun3])，我要计算的是column3根据column1的总和，（column1 表示日期，column2 表示类别，column3 是该日期类别之一的出现，所以我想计算所有类别的总和每个日期），我试过这个代码：

    from pyspark import SparkContext, SparkConf
    if __name__ == "__main__":
        conf = SparkConf().setAppName("sum").setMaster("local[3]")
        sc = SparkContext(conf = conf)
        line.split(",")).map(lambda line: (line[0:1]+line[3:4]))
        text_file = sc.textFile("in/fileinput.CSV")
        counts = text_file.flatMap(lambda line: line.split(",")) \
             .map(lambda line: (line[0:1],line[2:3])) \
             .reduceByKey(lambda a, b: a + b)
        counts.saveAsTextFile("out/fileoutput.txt")

提前谢谢你（原谅我的英语）

Answer 1

请尝试以下步骤以获得所需的结果。

将 CSV 文件作为 Dataframe 读取。
df = spark.read.csv("path_to_csv_file", header=True, inferSchema=True)
根据第 1 列按数据分组。
group_df = df.groupBy("Column_1")
对分组数据取第三列的总和
result_df = group_df.agg(sum("column_3").alias("SUM"))
显示数据 result_df.show()

希望能帮助到你。

注意：有关 CSV 功能的更多信息，请参阅以下链接。 https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.csv

问候，

尼拉吉

如何用spark python对CSV文件列求和

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-10-13 12:02:56

如何用spark python对CSV文件列求和

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-10-13 12:02:56

解决方案1
2 已采纳 2018-10-13 12:02:56