如何在 Python 中创建示例单列 Spark DataFrame？

Question

我想创建一个示例单列 DataFrame，但以下代码不起作用：

df = spark.createDataFrame(["10","11","13"], ("age"))

## ValueError
## ...
## ValueError: Could not parse datatype: age

预期结果：

age
10
11
13

Answer 1

以下代码不起作用

对于单个元素，您需要一个模式作为类型

spark.createDataFrame(["10","11","13"], "string").toDF("age")

或数据DataType ：

from pyspark.sql.types import StringType

spark.createDataFrame(["10","11","13"], StringType()).toDF("age")

名称元素应该是元组和模式作为序列：

spark.createDataFrame([("10", ), ("11", ), ("13",  )], ["age"])

Answer 2

嗯.. 有一些非常简单的方法可以在 PySpark 中创建示例数据框

>>> df = sc.parallelize([[1,2,3], [2,3,4]]).toDF()
>>> df.show()
+---+---+---+
| _1| _2| _3|
+---+---+---+
|  1|  2|  3|
|  2|  3|  4|
+---+---+---+

用一些列名创建

>>> df1 = sc.parallelize([[1,2,3], [2,3,4]]).toDF(("a", "b", "c"))
>>> df1.show()
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  2|  3|
|  2|  3|  4|
+---+---+---+

这样，也不需要定义schema。希望这是最简单的方法

Answer 3

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
df = spark.createDataFrame([{"a": "x", "b": "y", "c": "3"}])

输出：（无需定义架构）

+---+---+---+
| a | b | c |
+---+---+---+
|  x|  y|  3|
+---+---+---+

Answer 4

对于 pandas + pyspark 用户，如果您已经在集群中安装了 pandas，则可以简单地执行以下操作：

# create pandas dataframe
df = pd.DataFrame({'col1':[1,2,3], 'col2':['a','b','c']})

# convert to spark dataframe
df = spark.createDataFrame(df)

本地 Spark 设置

import findspark
findspark.init()
import pyspark

spark = (pyspark
         .sql
         .SparkSession
         .builder
         .master("local")
         .getOrCreate())

Answer 5

我只使用 spark.read 在 python 中创建了一个数据框，如文档中所述，将您的数据保存为 json 例如并像这样加载它：

df = spark.read.json("examples/src/main/resources/people.json")

Answer 6

你也可以试试这样的——

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc) # sc is the spark context
sample = sqlContext.createDataFrame(
    [
        ('qwe', 23), # enter your data here
        ('rty',34),
        ('yui',56),
        ],
    ['abc', 'def'] # the row header/column labels should be entered here

Answer 7

创建 DataFrame 有多种方法， PySpark Create DataFrame是您在使用 PySpark 时学习的第一步

我假设您已经有了数据、列和 RDD。

1) df = rdd.toDF()
2) df = rdd.toDF(columns) //Assigns column names
3) df = spark.createDataFrame(rdd).toDF(*columns)
4) df = spark.createDataFrame(data).toDF(*columns)
5) df = spark.createDataFrame(rowData,columns)

除此之外，您还可以在pyspark create dataframe上找到几个示例

Answer 8

请参阅我的farsante lib 以使用假数据创建 DataFrame：

import farsante

df = farsante.quick_pyspark_df(['first_name', 'last_name'], 7)
df.show()

+----------+---------+
|first_name|last_name|
+----------+---------+
|     Tommy|     Hess|
|    Arthur| Melendez|
|  Clemente|    Blair|
|    Wesley|   Conrad|
|    Willis|   Dunlap|
|     Bruna|  Sellers|
|     Tonda| Schwartz|
+----------+---------+

以下是在创建 PySpark DataFrame 时显式指定架构的方法：

df = spark.createDataFrame(
  [(10,), (11,), (13,)],
  StructType([StructField("some_int", IntegerType(), True)]))

df.show()

+--------+
|some_int|
+--------+
|      10|
|      11|
|      13|
+--------+

如何在 Python 中创建示例单列 Spark DataFrame？

问题描述

8 个解决方案

解决方案1
37 已采纳 2017-12-06 12:57:40

解决方案2
11 2019-10-18 06:47:58

解决方案3
7 2019-11-11 15:31:40

解决方案4
4 2020-01-29 18:22:31

解决方案5
0 2017-12-06 12:42:42

解决方案6
0 2020-09-02 11:04:14

解决方案7
0 2020-10-28 05:18:53

解决方案8
0 2021-02-24 03:56:09

如何在 Python 中创建示例单列 Spark DataFrame？

问题描述

8 个解决方案

解决方案1 37 已采纳 2017-12-06 12:57:40

解决方案2 11 2019-10-18 06:47:58

解决方案3 7 2019-11-11 15:31:40

解决方案4 4 2020-01-29 18:22:31

解决方案5 0 2017-12-06 12:42:42

解决方案6 0 2020-09-02 11:04:14

解决方案7 0 2020-10-28 05:18:53

解决方案8 0 2021-02-24 03:56:09

解决方案1
37 已采纳 2017-12-06 12:57:40

解决方案2
11 2019-10-18 06:47:58

解决方案3
7 2019-11-11 15:31:40

解决方案4
4 2020-01-29 18:22:31

解决方案5
0 2017-12-06 12:42:42

解决方案6
0 2020-09-02 11:04:14

解决方案7
0 2020-10-28 05:18:53

解决方案8
0 2021-02-24 03:56:09