Zeppelin：將pyspark.rdd.RDD轉換為dataframe（pyspark dataframe）

Question

我想將pyspark.rdd.RDD轉換為dataframe。 我已經在火花中完成了它，但現在在Zeppelin它似乎沒有以同樣的方式工作。

我以這種方式轉換我的pyspark.rdd.RDD：

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import pandas as pd


#comment if a SparkContext has already been created   
sc = SparkContext()

conf = {"es.resource" : "index/type", "es.nodes" : "ES_Serveur", "es.port" : "9200", "es.query" : "?q=*"}
rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat","org.apache.hadoop.io.NullWritable", "org.elasticsearch.hadoop.mr.LinkedMapWritable", conf=conf)

#to allow the toDF methode
spark = SparkSession(sc)

df = rdd.toDF().toPandas()

它起作用......在火花提交但不在齊柏林。

我想知道為什么。

我有一些日志錯誤，但它超過1000行..如果你想我可以給你這些日志。

如果有人有想法..謝謝

Answer 1

我找到了解決方案：在Spark Interpreter的配置中（在Zeppelin中），您需要將false更改為zeppelin.spark.useHiveContext行。 盡管如此，我不明白為什么問題會出現在toDF方法所在的那一行......

Zeppelin：將pyspark.rdd.RDD轉換為dataframe（pyspark dataframe）

問題描述

1 個解決方案

解決方案1
0 已采納 2017-04-24 09:00:59

Zeppelin：將pyspark.rdd.RDD轉換為dataframe（pyspark dataframe）

問題描述

1 個解決方案

解決方案1 0 已采納 2017-04-24 09:00:59

解決方案1
0 已采納 2017-04-24 09:00:59