[英]Append multiple CSV files with different order of headers
我有一個目錄,其中包含具有相同列但順序不同的CSV文件。 我想將它們附加到一個CSV文件中,但是當使用pyspark使用以下代碼執行此操作時,我得到了csv,但內部包含混合數據(即,它不能正確地排序列的順序)。
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import col
sc = SparkContext("local", "Simple App")
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('/myPATH/TO_THE_CSV_FILES/')
df.coalesce(1).write.option("header", "true").format('com.databricks.spark.csv').save('/myPATH/TO_APPENDED_CSV_FILE/')
您可以使用一些技巧。
cols = a.columns
a = a.select(cols)
b = b.select(cols)
c = a.union(b)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.