[英]Import CSV to pyspark dataframe
我是pyspark的新手,我正在尝试加载如下所示的CSV文件:
我的csv文件:
article_id title short_desc
33 novel findings support original asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials
我的代码读取csv:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import DoubleType, IntegerType, StringType
spark = SparkSession.builder.appName('Basics').getOrCreate()
schema = StructType([
StructField("article_id", IntegerType()),
StructField("title", StringType()),
StructField("short_desc", StringType()),
StructField("article_desc", StringType())
])
peopleDF = spark.read.csv('temp.csv', header=True, schema=schema)
peopleDF.show(6)
为什么要添加null?
数据集样本,以便您可以重现相同的问题:
您要读取的Excel工作表中的单元格具有“合并的单元格”。
Spark不会将它们读取为合并的单元格,但会将行分开。 在您的情况下,列“ article_desc”在垂直方向上由这5个单元格组成,其余列的单元格为空。 因此,您具有空值。
如果将所有内容都放在一个单元格中,则无需空值即可读取它。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.