使用pySpark将DataFrame写入mysql表

Question

我正在尝试将记录插入到MySql表中。 该表包含id和name作为列。

我在pyspark shell 中的操作如下所示。

name = 'tester_1'
id = '103'  
import pandas as pd
l = [id,name]

df = pd.DataFrame([l])

df.write.format('jdbc').options(
      url='jdbc:mysql://localhost/database_name',
      driver='com.mysql.jdbc.Driver',
      dbtable='DestinationTableName',
      user='your_user_name',
      password='your_password').mode('append').save()

我收到以下属性错误

AttributeError: 'DataFrame' object has no attribute 'write'

我究竟做错了什么？ 将记录从pySpark插入MySql表的正确方法是什么

Answer 1

使用Spark DataFrame而不是pandas'，因为.write仅在Spark Dataframe上可用

所以最终的代码可能是

data =['103', 'tester_1']

df = sc.parallelize(data).toDF(['id', 'name'])

df.write.format('jdbc').options(
      url='jdbc:mysql://localhost/database_name',
      driver='com.mysql.jdbc.Driver',
      dbtable='DestinationTableName',
      user='your_user_name',
      password='your_password').mode('append').save()

Answer 2

只是为了添加@mrsrinivas 的答案。

确保您的 spark session 中有 sql 连接器的 jar 位置。此代码有助于：

spark = SparkSession\
    .builder\
    .config("spark.jars", "/Users/coder/Downloads/mysql-connector-java-8.0.22.jar")\
    .master("local[*]")\
    .appName("pivot and unpivot")\
    .getOrCreate()

否则会抛出错误。

使用pySpark将DataFrame写入mysql表

问题描述

2 个解决方案

解决方案1
10 已采纳 2017-10-04 02:56:24

解决方案2
0 2022-05-09 19:58:52

使用pySpark将DataFrame写入mysql表

问题描述

2 个解决方案

解决方案1 10 已采纳 2017-10-04 02:56:24

解决方案2 0 2022-05-09 19:58:52

解决方案1
10 已采纳 2017-10-04 02:56:24

解决方案2
0 2022-05-09 19:58:52