簡體   English   中英

在pyspark上導入python庫

[英]Import python library on pyspark

Python的新手。

我想從S3中讀取一些XML文件並對其進行查詢。 我已連接到AWS,並啟動了一些EC2群集,但是我不確定如何導入獲取數據所需的庫。

我認為使用xmlutils庫將xml轉換為json,然后使用我確實有權訪問的sqlcontext庫中的read.json將起作用(請參見下文)

 converter = xml2json("S3 logs", "output.sql", encoding="utf-8")
 converter.convert()

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

logs = sqlContext.read.json("output.sql")
logs.registerAsTable("logs")

query_results = sqlContext.sql("SELECT * from logs...")

編輯

我正在嘗試使用此代碼塊從cloudera鏈接在我的虛擬環境中的Spark上安裝xmlutils。 (已經設置了SparkConf和SparkContext)

def import_my_special_package(x):
    import my.special.package
    return x

int_rdd = sc.parallelize([1, 2, 3, 4])
int_rdd.map(lambda x: import_my_special_package(x))
int_rdd.collect()

我嘗試在函數參數中將xmlutils和'xmlutils'都作為x傳遞,但沒有用。 難道我做錯了什么? 謝謝

在2015.03 AMI上默認為Python 2.7安裝了pip和virtualenv- https: //aws.amazon.com/amazon-linux-ami/2015.03-release-notes/。

上面的站點顯示了如何訪問新AMI圖像上的pip。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM