将CSV导入pyspark数据框

Question

我是pyspark的新手，我正在尝试加载如下所示的CSV文件：

我的csv文件：

   article_id   title                                  short_desc                                           
    33          novel findings support original        asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials

我的代码读取csv：

from pyspark.sql import SparkSession

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType


spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
    StructField("article_id", IntegerType()),
    StructField("title", StringType()),
    StructField("short_desc", StringType()),
    StructField("article_desc", StringType())
])

peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)

peopleDF.show(6)

为什么要添加null？

数据集样本，以便您可以重现相同的问题：

数据集样本

Answer 1

您要读取的Excel工作表中的单元格具有“合并的单元格”。

Spark不会将它们读取为合并的单元格，但会将行分开。 在您的情况下，列“ article_desc”在垂直方向上由这5个单元格组成，其余列的单元格为空。 因此，您具有空值。

如果将所有内容都放在一个单元格中，则无需空值即可读取它。

将CSV导入pyspark数据框

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-04-24 18:27:38

将CSV导入pyspark数据框

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-04-24 18:27:38

解决方案1
0 已采纳 2018-04-24 18:27:38