簡體   English   中英

將CSV導入pyspark數據框

[英]Import CSV to pyspark dataframe

我是pyspark的新手,我正在嘗試加載如下所示的CSV文件:

我的csv文件:

   article_id   title                                  short_desc                                           
    33          novel findings support original        asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials  

我的代碼讀取csv:

from pyspark.sql import SparkSession

from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType


spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
    StructField("article_id", IntegerType()),
    StructField("title", StringType()),
    StructField("short_desc", StringType()),
    StructField("article_desc", StringType())
])

peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)

peopleDF.show(6)

代碼更改后

為什么要添加null?

數據集樣本,以便您可以重現相同的問題:

數據集樣本

您要讀取的Excel工作表中的單元格具有“合並的單元格”。

Spark不會將它們讀取為合並的單元格,但會將行分開。 在您的情況下,列“ article_desc”在垂直方向上由這5個單元格組成,其余列的單元格為空。 因此,您具有空值。

如果將所有內容都放在一個單元格中,則無需空值即可讀取它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM