[英]wrong schema while reading csv file as a dataframe
試圖將 csv 文件讀入 dataframe 簡單代碼
df = spark.read.csv("1.csv")
我有
df.printSchema()
root
|-- _c0: string (nullable = true)
我也試試這個
db = spark.read.csv("1.csv", header=True, inferSchema= "True")
db.printSchema()
root
|-- id | date | cases | country | deaths | cities | per_cap |
在此先感謝您的幫助
顯然,您的行分隔符是 pipe |
.
嘗試:
db = spark.read.csv("1.csv", sep='|', header=True, inferSchema= "True")
for col in db.columns:
db = db.withColumnRenamed(col, col.strip())
您應該創建自己的架構。
使用 scala:
val schemaExpected = new StructType()
.add("id" , StringType , nullable = true)
.add("date" , DateType, nullable = true)
...
.add(deaths , IntegerType, nullable = true)
然后你可以讀取你的 DataFrame:
val db = spark.read.option("header","true").schema(schemaExpected).csv("1.csv")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.