繁体   English   中英

将CSV导入pyspark数据框

[英]Import CSV to pyspark dataframe

我是pyspark的新手,我正在尝试加载如下所示的CSV文件:

我的csv文件:

   article_id   title                                  short_desc                                           
    33          novel findings support original        asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials  

我的代码读取csv:

from pyspark.sql import SparkSession

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType


spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
    StructField("article_id", IntegerType()),
    StructField("title", StringType()),
    StructField("short_desc", StringType()),
    StructField("article_desc", StringType())
])

peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)

peopleDF.show(6)

代码更改后

为什么要添加null?

数据集样本,以便您可以重现相同的问题:

数据集样本

您要读取的Excel工作表中的单元格具有“合并的单元格”。

Spark不会将它们读取为合并的单元格,但会将行分开。 在您的情况下,列“ article_desc”在垂直方向上由这5个单元格组成,其余列的单元格为空。 因此,您具有空值。

如果将所有内容都放在一个单元格中,则无需空值即可读取它。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM