[英]Import CSV to pyspark dataframe
我是pyspark的新手,我正在嘗試加載如下所示的CSV文件:
我的csv文件:
article_id title short_desc
33 novel findings support original asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials
我的代碼讀取csv:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType
spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
StructField("article_id", IntegerType()),
StructField("title", StringType()),
StructField("short_desc", StringType()),
StructField("article_desc", StringType())
])
peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)
peopleDF.show(6)
為什么要添加null?
數據集樣本,以便您可以重現相同的問題:
您要讀取的Excel工作表中的單元格具有“合並的單元格”。
Spark不會將它們讀取為合並的單元格,但會將行分開。 在您的情況下,列“ article_desc”在垂直方向上由這5個單元格組成,其余列的單元格為空。 因此,您具有空值。
如果將所有內容都放在一個單元格中,則無需空值即可讀取它。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.