附加具有不同標題順序的多個CSV文件

Question

我有一個目錄，其中包含具有相同列但順序不同的CSV文件。 我想將它們附加到一個CSV文件中，但是當使用pyspark使用以下代碼執行此操作時，我得到了csv，但內部包含混合數據（即，它不能正確地排序列的順序）。

from pyspark import SparkContext

from pyspark.sql import SQLContext

from pyspark.sql.functions import col


sc = SparkContext("local", "Simple App")

sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('/myPATH/TO_THE_CSV_FILES/')
df.coalesce(1).write.option("header", "true").format('com.databricks.spark.csv').save('/myPATH/TO_APPENDED_CSV_FILE/')

Answer 1

您可以使用一些技巧。

cols = a.columns

a = a.select(cols)
b = b.select(cols)

c = a.union(b)

附加具有不同標題順序的多個CSV文件

問題描述

1 個解決方案

解決方案1
1 2018-02-21 18:44:59

附加具有不同標題順序的多個CSV文件

問題描述

1 個解決方案

解決方案1 1 2018-02-21 18:44:59

解決方案1
1 2018-02-21 18:44:59