繁体   English   中英

PySpark:StructField(...,...,False)总是返回`nullable = true`而不是`nullable = false`

[英]PySpark: StructField(…, …, False) always returns `nullable=true` instead of `nullable=false`

我是PySpark的新手,面临一个奇怪的问题。 我正在尝试在加载CSV数据集时将某些列设置为不可为空。 我可以用一个非常小的数据集( test.csv )重现我的情况:

col1,col2,col3
11,12,13
21,22,23
31,32,33
41,42,43
51,,53

在第5行第2列有一个空值,我不想在我的DF中获得该行。 我将所有字段设置为非可空( nullable=false )但我得到一个模式,其中所有三列都具有nullable=true 即使我将所有三列都设置为不可为空,也会发生这种情况! 我正在运行最新版本的Spark 2.0.1。

这是代码:

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

struct = StructType([   StructField("col1", StringType(), False), \
                        StructField("col2", StringType(), False), \
                        StructField("col3", StringType(), False) \
                    ])

df = spark.read.load("test.csv", schema=struct, format="csv", header="true")

df.printSchema()返回:

root
 |-- col1: string (nullable = true)
 |-- col2: string (nullable = true)
 |-- col3: string (nullable = true)

df.show()返回:

+----+----+----+
|col1|col2|col3|
+----+----+----+
|  11|  12|  13|
|  21|  22|  23|
|  31|  32|  33|
|  41|  42|  43|
|  51|null|  53|
+----+----+----+

虽然我期待这个:

root
 |-- col1: string (nullable = false)
 |-- col2: string (nullable = false)
 |-- col3: string (nullable = false)

+----+----+----+
|col1|col2|col3|
+----+----+----+
|  11|  12|  13|
|  21|  22|  23|
|  31|  32|  33|
|  41|  42|  43|
+----+----+----+

虽然Spark行为(在这里从False切换到True是令人困惑的,但这里没有任何根本性的错误nullable参数不是约束,而是源和类型语义的反映,它允许某些类型的优化

您声明要避免数据中的空值。 为此你应该使用na.drop方法。

df.na.drop()

有关处理空值的其他方法,请查看DataFrameNaFunctions (使用DataFrame.na属性公开)文档。

CSV格式不提供任何允许您指定数据约束的工具,因此定义读者不能假定输入不为空且您的数据确实包含空值。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM