SparkSession初始化錯誤 - 無法使用spark.read

Question

我嘗試創建一個獨立的PySpark程序，它讀取csv並將其存儲在hive表中。 我在配置Spark會話，會議和上下文對象時遇到問題。 這是我的代碼：

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext, SparkSession
from pyspark.sql.types import *

conf = SparkConf().setAppName("test_import")
sc = SparkContext(conf=conf)
sqlContext  = SQLContext(sc)

spark = SparkSession.builder.config(conf=conf)
dfRaw = spark.read.csv("hdfs:/user/..../test.csv",header=False)

dfRaw.createOrReplaceTempView('tempTable')
sqlContext.sql("create table customer.temp as select * from tempTable")

我收到錯誤：

dfRaw = spark.read.csv（“hdfs：/ user /../ test.csv”，header = False）AttributeError：'Builder'對象沒有屬性'read'

為了使用read.csv命令，哪種配置spark會話對象的正確方法？ 另外，有人可以解釋Session，Context和Conference對象之間的差異嗎？

Answer 1

無需使用SparkContext和SparkSession來初始化Spark。 SparkSession是較新的推薦使用方式。

要初始化您的環境，只需執行以下操作：

spark = SparkSession\
  .builder\
  .appName("test_import")\
  .getOrCreate()

您可以執行以下操作來運行SQL命令：

spark.sql(...)

在Spark 2.0.0之前，使用了三個獨立的對象： SparkContext ， SQLContext和HiveContext 。 這些是分開使用的，具體取決於您想要做什么以及使用的數據類型。

隨着數據集/數據幀抽象的SparkSession ， SparkSession對象成為Spark環境的主要入口點。 通過首先初始化SparkSession （例如在名為spark的變量中）然后執行spark.sparkContext / spark.sqlContext仍然可以訪問其他對象。

SparkSession初始化錯誤 - 無法使用spark.read

問題描述

1 個解決方案

解決方案1
9 已采納 2017-10-24 08:55:31

SparkSession初始化錯誤 - 無法使用spark.read

問題描述

1 個解決方案

解決方案1 9 已采納 2017-10-24 08:55:31

解決方案1
9 已采納 2017-10-24 08:55:31