熊猫系列的Spark DataFrame

Question

我有一个熊猫系列对象

dates = pd.Series(pd.date_range(start_date,end_date))/
.dt.strftime('%y%m%d')/
.astype(int)/

我想直接从Series对象创建一个Spark DF，而无需中间的Pandas数据框

    _schema = StructType([
     StructField("date_id", IntegerType(), True),
])

    dates_rdd = sc.parallelize(dates)
    self.date_table = spark.createDataFrame(dates_rdd, _schema)

错误：

Error: raise TypeError("StructType can not accept object %r in type %s" % 
(obj, type(obj)))
TypeError: StructType can not accept object 160101 in type <class 
'numpy.int64'>

如果我将Series对象更改为：

    dates = pd.Series(pd.date_range(start_date,end_date))/
    .dt.strftime('%y%m%d')/
    .astype(int).values.tolist()

错误变为：

 raise TypeError("StructType can not accept object %r in type %s" % (obj, 
 type(obj)))
 TypeError: StructType can not accept object 160101 in type <class 'int'>

如何正确将日期列表/ rdd中包含的Int值映射到Spark Dataframes接受的Python本机整数？

Answer 1

相信，您错过了为每个序列值创建一个元组，

>>> dates = pd.Series(pd.date_range(start='1/1/1980', end='1/11/1980')).dt.strftime('%y%m%d').astype(int).values.tolist()
>>> rdd = sc.parallelize(dates).map(lambda x:(x,))
>>> _schema = StructType([StructField("date_id", IntegerType(), True),])
>>> df = spark.createDataFrame(rdd,schema=_schema)
>>> df.show()
+-------+
|date_id|
+-------+
| 800101|
| 800102|
| 800103|
| 800104|
| 800105|
| 800106|
| 800107|
| 800108|
| 800109|
| 800110|
| 800111|
+-------+

>>> df.printSchema()
root
 |-- date_id: integer (nullable = true)

Answer 2

这将起作用：

dates_rdd = sc.parallelize(dates).map(lambda x: tuple([int(x)]))
date_table = spark.createDataFrame(dates_rdd, _schema)

定义dates_rdd的附加映射的目的是使rdd的格式与模式匹配

熊猫系列的Spark DataFrame

问题描述

2 个解决方案

解决方案1
2 已采纳 2017-11-13 13:32:47

解决方案2
2 2017-11-13 13:33:09

熊猫系列的Spark DataFrame

问题描述

2 个解决方案

解决方案1 2 已采纳 2017-11-13 13:32:47

解决方案2 2 2017-11-13 13:33:09

解决方案1
2 已采纳 2017-11-13 13:32:47

解决方案2
2 2017-11-13 13:33:09