將CSV導入pyspark數據框

Question

我是pyspark的新手，我正在嘗試加載如下所示的CSV文件：

我的csv文件：

   article_id   title                                  short_desc                                           
    33          novel findings support original        asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials

我的代碼讀取csv：

from pyspark.sql import SparkSession

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType


spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
    StructField("article_id", IntegerType()),
    StructField("title", StringType()),
    StructField("short_desc", StringType()),
    StructField("article_desc", StringType())
])

peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)

peopleDF.show(6)

為什么要添加null？

數據集樣本，以便您可以重現相同的問題：

數據集樣本

Answer 1

您要讀取的Excel工作表中的單元格具有“合並的單元格”。

Spark不會將它們讀取為合並的單元格，但會將行分開。 在您的情況下，列“ article_desc”在垂直方向上由這5個單元格組成，其余列的單元格為空。 因此，您具有空值。

如果將所有內容都放在一個單元格中，則無需空值即可讀取它。

將CSV導入pyspark數據框

問題描述

1 個解決方案

解決方案1
0 已采納 2018-04-24 18:27:38

將CSV導入pyspark數據框

問題描述

1 個解決方案

解決方案1 0 已采納 2018-04-24 18:27:38

解決方案1
0 已采納 2018-04-24 18:27:38