簡體   English   中英

Zeppelin:將pyspark.rdd.RDD轉換為dataframe(pyspark dataframe)

[英]Zeppelin : Convert a pyspark.rdd.RDD to dataframe (pyspark dataframe)

我想將pyspark.rdd.RDD轉換為dataframe。 我已經在火花中完成了它,但現在在Zeppelin它似乎沒有以同樣的方式工作。

我以這種方式轉換我的pyspark.rdd.RDD:

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import pandas as pd


#comment if a SparkContext has already been created   
sc = SparkContext()

conf = {"es.resource" : "index/type", "es.nodes" : "ES_Serveur", "es.port" : "9200", "es.query" : "?q=*"}
rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat","org.apache.hadoop.io.NullWritable", "org.elasticsearch.hadoop.mr.LinkedMapWritable", conf=conf)

#to allow the toDF methode
spark = SparkSession(sc)

df = rdd.toDF().toPandas()

它起作用......在火花提交不在齊柏林。

我想知道為什么。

我有一些日志錯誤,但它超過1000行..如果你想我可以給你這些日志。

如果有人有想法..謝謝

我找到了解決方案:在Spark Interpreter的配置中(在Zeppelin中),您需要將false更改為zeppelin.spark.useHiveContext行。 盡管如此,我不明白為什么問題會出現在toDF方法所在的那一行......

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM