在pyspark上導入python庫

Question

Python的新手。

我想從S3中讀取一些XML文件並對其進行查詢。 我已連接到AWS，並啟動了一些EC2群集，但是我不確定如何導入獲取數據所需的庫。

我認為使用xmlutils庫將xml轉換為json，然后使用我確實有權訪問的sqlcontext庫中的read.json將起作用（請參見下文）

 converter = xml2json("S3 logs", "output.sql", encoding="utf-8")
 converter.convert()

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

logs = sqlContext.read.json("output.sql")
logs.registerAsTable("logs")

query_results = sqlContext.sql("SELECT * from logs...")

編輯

我正在嘗試使用此代碼塊從cloudera鏈接在我的虛擬環境中的Spark上安裝xmlutils。 （已經設置了SparkConf和SparkContext）

def import_my_special_package(x):
    import my.special.package
    return x

int_rdd = sc.parallelize([1, 2, 3, 4])
int_rdd.map(lambda x: import_my_special_package(x))
int_rdd.collect()

我嘗試在函數參數中將xmlutils和'xmlutils'都作為x傳遞，但沒有用。 難道我做錯了什么？ 謝謝

Answer 1

在2015.03 AMI上默認為Python 2.7安裝了pip和virtualenv- https: //aws.amazon.com/amazon-linux-ami/2015.03-release-notes/。

上面的站點顯示了如何訪問新AMI圖像上的pip。

在pyspark上導入python庫

問題描述

1 個解決方案

解決方案1
0 2015-11-18 18:22:29

在pyspark上導入python庫

問題描述

1 個解決方案

解決方案1 0 2015-11-18 18:22:29

解決方案1
0 2015-11-18 18:22:29